changes for docker to work

alexandriai168 · alexandriai168 · commit 04821c1691ac · 2025-04-18T14:43:18.000-07:00
diff --git a/build/crc_organoids/01-samples-crc.py b/build/crc_organoids/01-samples-crc.py
@@ -171,7 +171,7 @@ def generate_sample_file(sequencing_data_path:str = None, prev_samples_path:str
             # Download RNA seq data
             download_rnaseq(save_path = "/tmp/GSE65253_col_tum_org_merge.csv.gz")
             # Download sequencing data
-            sequencing_download_path = download_sequencing_data(synID = args.synapseID, synToken = args.token, save_path = "/tmp/mmc2.xlsx")
+            sequencing_download_path = download_sequencing_data(synID = args.synapseID, synToken = args.token, save_path = "/tmp")
 
     if args.samples:
         if args.prevSamples is None or args.prevSamples=='':
@@ -180,6 +180,6 @@ def generate_sample_file(sequencing_data_path:str = None, prev_samples_path:str
         else:
             print("Previous sample sheet {} detected. Running sample file generation and checking for duplicate IDs.".format(args.prevSamples))
             sample_sheet = generate_sample_file(sequencing_data_path = sequencing_download_path, prev_samples_path= args.prevSamples)
-        sample_sheet.to_csv("/tmp/crc_samples.csv", index=False)
+        sample_sheet.to_csv("/tmp/crc_organoids_samples.csv", index=False)
     
 
diff --git a/build/crc_organoids/02-omics-crc.py b/build/crc_organoids/02-omics-crc.py
@@ -103,13 +103,13 @@ def map_transcriptomics(transciptomics_data, improve_id_data, entrez_data):
     # move row names to a column called "stable_id" and format gene names to remove the chromosome num
     transciptomics_data['stable_id'] = transciptomics_data.index
     transciptomics_data['stable_id'] = transciptomics_data['stable_id'].str.split('__',n = 1,expand=True).iloc[:,0]
-    transciptomics_data.to_csv("counts_for_tpm_conversion.csv")
+    transciptomics_data.to_csv("/tmp/counts_for_tpm_conversion.csv")
 
     # run tpmFromCounts.py to convert counts to tpm
-    os.system("python tpmFromCounts.py --counts counts_for_tpm_conversion.csv --genome_build https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.13_GRCh37/GCF_000001405.13_GRCh37_genomic.gtf.gz --gene_col stable_id --exclude_col stable_id --out_file transcriptomics_tpm.tsv")
+    os.system("python3 tpmFromCounts.py --counts /tmp/counts_for_tpm_conversion.csv --genome_build https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.13_GRCh37/GCF_000001405.13_GRCh37_genomic.gtf.gz --gene_col stable_id --exclude_col stable_id --out_file /tmp/transcriptomics_tpm.tsv")
     
     # get output from script (in tsv format) and average across organoids from each patient ]
-    tpm_transciptomics_data = pd.read_csv("transcriptomics_tpm.tsv", sep="\t")
+    tpm_transciptomics_data = pd.read_csv("/tmp/transcriptomics_tpm.tsv", sep="\t")
     tpm_transciptomics_data.index = tpm_transciptomics_data['stable_id']
     tpm_transciptomics_data = tpm_transciptomics_data.drop(columns=['stable_id'])
     transpose_transcriptomics = tpm_transciptomics_data.T
@@ -226,7 +226,7 @@ def map_copy_number(copy_number_data, improve_id_data, entrez_data):
     if args.parse:
         print("Parsing excel file.")
         # Download parse excel file to get mutation data and the copy num data
-        mutation_df, copy_num_df = parse_mmc2("/tmp/mmc2.xlsx")
+        mutation_df, copy_num_df = parse_mmc2("/tmp/mmc2.xlsx/mmc2.xlsx")
         # Save mutation and copy number data into csv format
         mutation_df.to_csv("/tmp/mutation_data.csv")
         copy_num_df.to_csv("/tmp/copy_num_data.csv")
@@ -241,7 +241,7 @@ def map_copy_number(copy_number_data, improve_id_data, entrez_data):
             exit()
         else:
             print("Starting transcriptomics data.")
-            transcriptomics_df = map_transcriptomics(transciptomics_data = "/tmp/GSE65253_col_tum_org_merge.csv.gz", improve_id_data = "/tmp/crc_samples.csv", entrez_data = "/tmp/genes.csv")
+            transcriptomics_df = map_transcriptomics(transciptomics_data = "/tmp/GSE65253_col_tum_org_merge.csv.gz", improve_id_data = "/tmp/crc_organoids_samples.csv", entrez_data = "/tmp/genes.csv")
             transcriptomics_df.to_csv("/tmp/crc_organoids_transcriptomics.csv", index=False)
     
     if args.mutations:
@@ -253,7 +253,7 @@ def map_copy_number(copy_number_data, improve_id_data, entrez_data):
             exit()
         else:
             print("Starting mutations data.")
-            mutation_df = map_mutations(mutation_data = "/tmp/mutation_data.csv", improve_id_data = "/tmp/crc_samples.csv", entrez_data = "/tmp/genes.csv")
+            mutation_df = map_mutations(mutation_data = "/tmp/mutation_data.csv", improve_id_data = "/tmp/crc_organoids_samples.csv", entrez_data = "/tmp/genes.csv")
             mutation_df.to_csv("/tmp/crc_organoids_mutations.csv", index=False)
     
     if args.copy_number:
@@ -265,6 +265,6 @@ def map_copy_number(copy_number_data, improve_id_data, entrez_data):
             exit()
         else:
             print("Starting copy number data.")
-            mutation_df = map_copy_number(copy_number_data = "/tmp/copy_num_data.csv", improve_id_data = "/tmp/crc_samples.csv", entrez_data = "/tmp/genes.csv")
+            mutation_df = map_copy_number(copy_number_data = "/tmp/copy_num_data.csv", improve_id_data = "/tmp/crc_organoids_samples.csv", entrez_data = "/tmp/genes.csv")
             mutation_df.to_csv("/tmp/crc_organoids_copynumber.csv", index=False)
     
diff --git a/build/crc_organoids/03-drug-crc.py b/build/crc_organoids/03-drug-crc.py
@@ -5,6 +5,8 @@
 import argparse
 import synapseclient 
 from pubchem_retrieval import update_dataframe_and_write_tsv
+import warnings
+warnings.filterwarnings("ignore")
 
 ### get drug data
 def download_synapse_data(synID:str, save_path:str = None, synToken:str = None):
@@ -44,17 +46,17 @@ def download_synapse_data(synID:str, save_path:str = None, synToken:str = None):
 def create_crc_drug_data(fitted_drug_data_path:str, prevDrugFilepath:str, output_drug_data_path:str):
     # import fitted drug data and get drug names from DRUG_NAME column
     fitted_drug_df = pd.read_csv(fitted_drug_data_path)
-    crc_drugs_df = pd.DataFrame(fitted_drug_df['DRUG_NAME'].unique())
+    crc_drugs_df = pd.DataFrame(columns={"DRUG_NAME":fitted_drug_df['DRUG_NAME'].unique()})
     # if there is a prev drug file, check for new drugs
-    if prevDrugFilepath is not None and prevDrugFilepath is not "":
+    if prevDrugFilepath != None and prevDrugFilepath != "":
         prev_drug_df = pd.read_csv(prevDrugFilepath)
         # get drugs that are only in the crc_drugs_df (aka new drugs only)
         new_drugs_df = crc_drugs_df[~crc_drugs_df.chem_name.isin(prev_drug_df.chem_name)]
     else:
         # if there's no prev drugs, then all drugs are new
         new_drugs_df = crc_drugs_df
     # get new drug names
-    new_drug_names = new_drugs_df['chem_name'].unique()
+    new_drug_names = new_drugs_df['DRUG_NAME'].unique()
     # call function that gets info for these drugs
     update_dataframe_and_write_tsv(new_drug_names,output_drug_data_path)
 
@@ -69,7 +71,7 @@ def create_crc_drug_data(fitted_drug_data_path:str, prevDrugFilepath:str, output
     parser.add_argument('-d', '--Download', action = 'store_true', default=False, help='Download drug data.')
     parser.add_argument('-t', '--Token', type=str, default=None, help='Synapse Token')
     parser.add_argument('-D', '--Drug', action = 'store_true', default=False, help='Generate drug data.')
-    parser.add_argument('-p', '--PrevDrugs', type=str, default=None, help='Synapse Token')
+    parser.add_argument('-p', '--PrevDrugs', nargs='?', type=str, default='', const='', help='Previous drug file')
 
     args = parser.parse_args()
 
@@ -87,8 +89,8 @@ def create_crc_drug_data(fitted_drug_data_path:str, prevDrugFilepath:str, output
     if args.Drug:
         if args.PrevDrugs is None or args.PrevDrugs=='':
             print("No previous drugs file provided.  Starting improve_drug_id from SMI_1. Running drug file generation")
-            create_crc_drug_data(fitted_drug_data_path = "/tmp/fitted_data_GDSC_Org_restricted_11Mar25.csv", output_drug_data_path = "/tmp/crc_drugs.tsv")
+            create_crc_drug_data(fitted_drug_data_path = "/tmp/fitted_data_GDSC_Org_restricted_11Mar25.csv", output_drug_data_path = "/tmp/crc_organoids_drugs.tsv", prevDrugFilepath = "")
         else:
             print("Previous drugs file {} detected. Running drugs file generation and checking for duplicate IDs.".format(args.PrevDrugs))
-            create_crc_drug_data(fitted_drug_data_path = "/tmp/fitted_data_GDSC_Org_restricted_11Mar25.csv", prevDrugFilepath = args.PrevDrugs, output_drug_data_path = "/tmp/crc_drugs.tsv")
+            create_crc_drug_data(fitted_drug_data_path = "/tmp/fitted_data_GDSC_Org_restricted_11Mar25.csv", prevDrugFilepath = args.PrevDrugs, output_drug_data_path = "/tmp/crc_organoids_drugs.tsv")
 
diff --git a/build/crc_organoids/build_drugs.sh b/build/crc_organoids/build_drugs.sh
@@ -1,11 +1,12 @@
 #!/bin/bash
 set -euo pipefail
+echo "the variable is $1"
 
 trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit 1' ERR
 
 # running the drug python script
-echo "Running 03-drug-crc.py with token and prevSamples $1."
-python 03-drug-crc.py --Download --Drugs --token $SYNAPSE_AUTH_TOKEN --prevSamples $1
+echo "Running 03-drug-crc.py with token and PrevDrugs $1."
+python3 03-drug-crc.py --Download --Drug --Token $SYNAPSE_AUTH_TOKEN --PrevDrugs $1
 
 # running the drug descriptor python script
-python build_drug_desc.py --drugtable /tmp/crc_drugs.csv --desctable /tmp/crc_drug_descriptors.csv.gz
+python3 build_drug_desc.py --drugtable /tmp/crc_organoids_drugs.tsv --desctable /tmp/crc_drug_descriptors.csv.gz
diff --git a/build/crc_organoids/build_exp.sh b/build/crc_organoids/build_exp.sh
@@ -5,10 +5,10 @@ trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit
 
 # running the drug python script
 echo "Running 04-experiments-crc.py with token, samples file $1 and drugs file $2."
-python 04-experiments-crc.py --Download --Experiment --token $SYNAPSE_AUTH_TOKEN --Samples $1 --Drugs $2
+python3 04-experiments-crc.py --Download --Experiment --Token $SYNAPSE_AUTH_TOKEN --Samples $1 --Drugs $2
 
 # running the drug descriptor python script
-python fit_curve.py --input /tmp/crc_experiments_for_curve_fitting.tsv --output /tmp/crc_experiment.tsv
+python3 fit_curve.py --input /tmp/crc_experiments_for_curve_fitting.tsv --output /tmp/crc_experiment.tsv
 
 # for some reason, the fit_curve.py script always outputs with .0 at the end, so remove that
 mv /tmp/crc_doserep.tsv.0 crc_doserep.tsv
diff --git a/build/crc_organoids/build_omics.sh b/build/crc_organoids/build_omics.sh
@@ -3,5 +3,5 @@ set -euo pipefail
 
 trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit 1' ERR
 
-echo "Running 02-omics-cdc.py with token, curSamples $2, and genes $1."
-python 02-omics-cdc.py --parse --transcriptomics --mutations --copy_number --omics --ids $2 --genes $1
+echo "Running 02-omics-crc.py with token, curSamples $2, and genes $1."
+python3 02-omics-crc.py --parse --transcriptomics --mutations --copy_number --ids $2 --genes $1
diff --git a/build/crc_organoids/build_samples.sh b/build/crc_organoids/build_samples.sh
@@ -5,4 +5,4 @@ trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit
 
 echo "Running 01-createSamples-crc.py with token and prevSamples $1."
 #   download the data and then create sample sheet  
-python 01-samples-crc.py  --download --samples --token $SYNAPSE_AUTH_TOKEN --prevSamples $1
+python3 01-samples-crc.py  --download --samples --token $SYNAPSE_AUTH_TOKEN --prevSamples $1
diff --git a/build/crc_organoids/requirements.txt b/build/crc_organoids/requirements.txt
@@ -1,17 +1,18 @@
 pandas
 numpy==1.23
-os
-gzip
+#os
+#gzip
 requests
 argparse
 synapseclient 
-math
-time
-threading
-signal
+#math
+#time
+#threading
+#signal
 rdkit
 mordred
-multiprocessing
+#multiprocessing
 tqdm
-itertools
-scikit-learn
+#itertools
+scikit-learn
+openpyxl