updated col_cat function from DATA_HANDLING.py. Outputs are now comparable to those of dr_reader

21546763 · BARTHES Nicolas · 41e614bc · 21546763 · 21546763 · 21546763
Commit 21546763 authored 1 year ago by BARTHES Nicolas
--- a/Class_Mod/DATA_HANDLING.py
+++ b/Class_Mod/DATA_HANDLING.py
@@ -5,7 +5,7 @@ from Packages import *
 def find_delimiter(filename):
    sniffer = csv.Sniffer()
    with open(filename) as fp:
-        delimiter = sniffer.sniff(fp.read(5000)).delimiter
+        delimiter = sniffer.sniff(fp.read(200)).delimiter
    return delimiter
 def find_col_index(filename):
@@ -17,7 +17,10 @@ def find_col_index(filename):
 # detection of columns categories and scaling
 def col_cat(data_import):
-    # detect numerical and categorical columns in the csv
+    """detect numerical and categorical columns in the csv"""
+    # set first column as sample names
+    name_col = pd.DataFrame(list(data_import.index), index = list(data_import.index))
+    name_col=name_col.rename(columns = {0:'name'})
    numerical_columns_list = []
    categorical_columns_list = []
    for i in data_import.columns:
@@ -30,6 +33,7 @@ def col_cat(data_import):
        numerical_columns_list.append(empty)
    if len(categorical_columns_list) > 0:
        categorical_data = pd.concat(categorical_columns_list, axis=1)
+        categorical_data.insert(0, 'name', name_col)
    if len(categorical_columns_list) == 0:
        categorical_data = pd.DataFrame
    # Create numerical data matrix from the numerical columns list and fill na with the mean of the column

--- a/data/Xcal_with_meta_data.csv
+++ b/data/Xcal_with_meta_data.csv
--- a/data/spectra_ble_rix_with_meta_data.csv
+++ b/data/spectra_ble_rix_with_meta_data.csv
--- a/pages/1-samples_selection.py
+++ b/pages/1-samples_selection.py
@@ -39,8 +39,9 @@ if data_file:
            else:
                col = False
            imp = pd.read_csv(data_file, sep=psep, index_col=col)
-            spectra = col_cat(imp)[0]
+            # spectra = col_cat(imp)[0]
-            meta_data = col_cat(imp)[1]
+            # meta_data = col_cat(imp)[1]
+            spectra, meta_data = col_cat(imp)
            st.success("The data have been loaded successfully", icon="✅")
    ## Load .dx file
@@ -50,7 +51,7 @@ if data_file:
            tmp.write(data_file.read())
            tmp_path = tmp.name
            with col1:
-                _, spectra, meta_data = read_dx(file =  tmp_path)
+                _, spectra, meta_data = read_dx(file = tmp_path)
                st.success("The data have been loaded successfully", icon="✅")
        os.unlink(tmp_path)
@@ -83,10 +84,11 @@ if not spectra.empty:
    clus_method = pc.selectbox("Clustering techniques: ", options = cluster_methods, key = 38)
    xc = standardize(spectra)
    if dim_red_method == dim_red_methods[1]:
        dr_model = LinearPCA(xc, Ncomp=5)
    elif dim_red_method == dim_red_methods[2]:
-        dr_model = Umap(data_import = data_import, numerical_data = scaled_values, cat_data = categorical_data)
+        dr_model = Umap(data_import = imp, numerical_data = MinMaxScale(spectra), cat_data = meta_data)
    if dr_model:
        axis1 = pc.selectbox("x-axis", options = dr_model.scores_.columns, index=0)