adding print statements for debug on AWS

jjacobson95 · jjacobson95 · commit 2801077870d9 · 2025-04-10T12:46:43.000-07:00
diff --git a/build/broad_sanger/05b_separate_datasets.py b/build/broad_sanger/05b_separate_datasets.py
@@ -5,6 +5,12 @@
 import shutil
 
 def main():
+    
+    print("ls:\n")
+    files = os.listdir(".")
+    print(files)
+    print("\n")
+    
     datasets_to_process = ["CCLE", "CTRPv2", "PRISM", "GDSCv1", "GDSCv2", "FIMM", "gCSI", "NCI60"]
     omics_datatypes = ["transcriptomics","proteomics", "copy_number","mutations"] # csv 
     samples_datatypes = ["samples"] #csv
@@ -71,12 +77,15 @@ def main():
         #One by one, filter other Omics files, write to file, delete from mem.
         for omics in omics_datatypes:
             ds = dataset_sources[dataset][0]
-            #print(ds)
+            print(f"ds: {ds}")
             omics_filename_in = f"{ds}_{omics}.csv"
+            print(f"omics_filename_in: {omics_filename_in}")
             if os.path.isfile(omics_filename_in + ".gz"):
                 omics_filename_in += ".gz"
+            print(f"omics_filename_in: {omics_filename_in}")
                 
             omics_filename_out = f"/tmp/{dataset}_{omics}.csv".lower()
+            print(f"omics_filename_out: {omics_filename_out}")
             omics_df = pl.read_csv(omics_filename_in)
             omics_df = omics_df.filter(pl.col("improve_sample_id").is_in(exp_improve_sample_ids))
 #            omics_df = omics_df.filter(pl.col("source").is_in(dataset_sources[dataset]))