changes for docker build

alexandriai168 · alexandriai168 · commit 55ed694d684a · 2025-04-22T13:05:17.000-07:00
diff --git a/build/crc_organoids/02-omics-crc.py b/build/crc_organoids/02-omics-crc.py
@@ -103,10 +103,10 @@ def map_transcriptomics(transciptomics_data, improve_id_data, entrez_data):
     # move row names to a column called "stable_id" and format gene names to remove the chromosome num
     transciptomics_data['stable_id'] = transciptomics_data.index
     transciptomics_data['stable_id'] = transciptomics_data['stable_id'].str.split('__',n = 1,expand=True).iloc[:,0]
-    transciptomics_data.to_csv("/tmp/counts_for_tpm_conversion.csv")
+    transciptomics_data.to_csv("/tmp/counts_for_tpm_conversion.tsv", sep='\t')
 
     # run tpmFromCounts.py to convert counts to tpm
-    os.system("python3 tpmFromCounts.py --counts /tmp/counts_for_tpm_conversion.csv --genome_build https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.13_GRCh37/GCF_000001405.13_GRCh37_genomic.gtf.gz --gene_col stable_id --exclude_col stable_id --out_file /tmp/transcriptomics_tpm.tsv")
+    os.system("python3 tpmFromCounts.py --counts /tmp/counts_for_tpm_conversion.tsv --genome_build https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.13_GRCh37/GCF_000001405.13_GRCh37_genomic.gtf.gz --gene_col stable_id --exclude_col stable_id --out_file /tmp/transcriptomics_tpm.tsv")
     
     # get output from script (in tsv format) and average across organoids from each patient ]
     tpm_transciptomics_data = pd.read_csv("/tmp/transcriptomics_tpm.tsv", sep="\t")
@@ -266,5 +266,5 @@ def map_copy_number(copy_number_data, improve_id_data, entrez_data):
         else:
             print("Starting copy number data.")
             mutation_df = map_copy_number(copy_number_data = "/tmp/copy_num_data.csv", improve_id_data = "/tmp/crc_organoids_samples.csv", entrez_data = "/tmp/genes.csv")
-            mutation_df.to_csv("/tmp/crc_organoids_copynumber.csv", index=False)
+            mutation_df.to_csv("/tmp/crc_organoids_copy_number.csv", index=False)
     
diff --git a/build/crc_organoids/03-drug-crc.py b/build/crc_organoids/03-drug-crc.py
@@ -46,7 +46,7 @@ def download_synapse_data(synID:str, save_path:str = None, synToken:str = None):
 def create_crc_drug_data(fitted_drug_data_path:str, prevDrugFilepath:str, output_drug_data_path:str):
     # import fitted drug data and get drug names from DRUG_NAME column
     fitted_drug_df = pd.read_csv(fitted_drug_data_path)
-    crc_drugs_df = pd.DataFrame(columns={"DRUG_NAME":fitted_drug_df['DRUG_NAME'].unique()})
+    crc_drugs_df = pd.DataFrame({"DRUG_NAME":fitted_drug_df['DRUG_NAME'].unique()})
     # if there is a prev drug file, check for new drugs
     if prevDrugFilepath != None and prevDrugFilepath != "":
         prev_drug_df = pd.read_csv(prevDrugFilepath)
diff --git a/build/crc_organoids/04-experiments-crc.py b/build/crc_organoids/04-experiments-crc.py
@@ -64,6 +64,8 @@ def create_experiments_data(experiment_data_path:str, samples_data_path:str, dru
     # get samples to only tumor organoid
     tumor_org_samples = samples_data[samples_data['other_id'].str.contains("Tumor-Organoid")]
     tumor_org_samples['patient_number'] = samples_data['other_id'].str.split("-",expand=True).iloc[:,0].str.replace("P","").str.replace("T","")
+    sample_drug_experiment_merge = pd.merge(drug_experiment_merge,tumor_org_samples[['patient_number','improve_sample_id']], how='left', on='patient_number')
+
     # clean up table by dropping and renaming columns
     sample_drug_experiment_merge = sample_drug_experiment_merge.rename(columns = {'CONC':'DOSE','viability':'GROWTH','improve_drug_id':'Drug','DURATION':'time','RESEARCH_PROJECT':'study'})
     sample_drug_experiment_merge['time_unit'] = "days"
diff --git a/build/crc_organoids/build_drugs.sh b/build/crc_organoids/build_drugs.sh
@@ -9,4 +9,4 @@ echo "Running 03-drug-crc.py with token and PrevDrugs $1."
 python3 03-drug-crc.py --Download --Drug --Token $SYNAPSE_AUTH_TOKEN --PrevDrugs $1
 
 # running the drug descriptor python script
-python3 build_drug_desc.py --drugtable /tmp/crc_organoids_drugs.tsv --desctable /tmp/crc_drug_descriptors.csv.gz
+python3 build_drug_desc.py --drugtable /tmp/crc_organoids_drugs.tsv --desctable /tmp/crc_organoids_drug_descriptors.csv.gz
diff --git a/build/crc_organoids/build_exp.sh b/build/crc_organoids/build_exp.sh
@@ -8,7 +8,4 @@ echo "Running 04-experiments-crc.py with token, samples file $1 and drugs file $
 python3 04-experiments-crc.py --Download --Experiment --Token $SYNAPSE_AUTH_TOKEN --Samples $1 --Drugs $2
 
 # running the drug descriptor python script
-python3 fit_curve.py --input /tmp/crc_experiments_for_curve_fitting.tsv --output /tmp/crc_experiment.tsv
-
-# for some reason, the fit_curve.py script always outputs with .0 at the end, so remove that
-mv /tmp/crc_doserep.tsv.0 crc_doserep.tsv
+python3 fit_curve.py --input /tmp/crc_experiments_for_curve_fitting.tsv --output /tmp/crc_organoids_experiments.tsv
diff --git a/build/crc_organoids/requirements.txt b/build/crc_organoids/requirements.txt
@@ -5,6 +5,7 @@ numpy==1.23
 requests
 argparse
 synapseclient 
+matplotlib
 #math
 #time
 #threading