corrections for build

alexandriai168 · alexandriai168 · commit 0c4808995821 · 2025-07-08T11:12:39.000-07:00
diff --git a/build/docker/Dockerfile.liverpdo b/build/docker/Dockerfile.liverpdo
@@ -38,10 +38,6 @@ ENV MPLCONFIGDIR=/app/tmp/matplotlib
 RUN mkdir -p /app/tmp/matplotlib
 
 
-ADD build/liverpdo/requirements.R .
-# installing r libraries
-RUN Rscript requirements.R
-
 
 
 # installing python libraries
@@ -50,11 +46,9 @@ ADD build/liverpdo/requirements.txt .
 RUN pip3 install -r requirements.txt
 
 RUN python3 --version
-RUN which Rscript
 
 #ENV PATH="/opt/venv/bin:$PATH"
 
-ADD build/liverpdo/CNV-segfile-annotation.R ./
 ADD build/liverpdo/*py ./
 ADD build/liverpdo/*sh ./
 
diff --git a/build/liverpdo/01-samples-liverpdo.py b/build/liverpdo/01-samples-liverpdo.py
@@ -107,7 +107,7 @@ def generate_sample_file(samples_data_path:str = None, prev_samples_path:str = "
 
     parser.add_argument('-D', '--download',action='store_true', default=False, help='Download RNA seq and sequencing data from GEO and supplemental materials from https://www.cell.com/cell/fulltext/S0092-8674(15)00373-6#mmc2')
     parser.add_argument('-t', '--token', type=str, default=None, help='Synapse Token')
-    parser.add_argument('-i', '--synapseID', type=str, default="syn64961953", help='SynapseID of data to download')
+    parser.add_argument('-i', '--synapseID', type=str, default="syn66593307", help='SynapseID of data to download')
 
     parser.add_argument('-s', '--samples', action = 'store_true', help='Only generate samples, requires previous samples',default=False)
     parser.add_argument('-p', '--prevSamples', nargs='?',type=str, default='', const='', help='Use this to provide previous sample file')
@@ -128,10 +128,10 @@ def generate_sample_file(samples_data_path:str = None, prev_samples_path:str = "
     if args.samples:
         if args.prevSamples is None or args.prevSamples=='':
             print("No previous samples file provided.  Starting improve_sample_id from 1. Running sample file generation")
-            sample_sheet = generate_sample_file(sequencing_data_path = samples_download_path)
+            sample_sheet = generate_sample_file(samples_data_path = samples_download_path)
         else:
             print("Previous sample sheet {} detected. Running sample file generation and checking for duplicate IDs.".format(args.prevSamples))
-            sample_sheet = generate_sample_file(sequencing_data_path = samples_download_path, prev_samples_path= args.prevSamples)
+            sample_sheet = generate_sample_file(samples_data_path = samples_download_path, prev_samples_path= args.prevSamples)
         sample_sheet.to_csv("/tmp/liverpdo_samples.csv", index=False)
     
 
diff --git a/build/liverpdo/02-omics-liverpdo.py b/build/liverpdo/02-omics-liverpdo.py
@@ -315,7 +315,7 @@ def map_transcriptomics(transciptomics_data, improve_id_data, entrez_data):
             exit()
         else:
             print("Starting transcriptomics data.")
-            transcriptomics_df = map_transcriptomics(transciptomics_data = "/tmp/raw_rnaseq_data.csv", improve_id_data = "/tmp/crcpdo_samples.csv", entrez_data = "/tmp/genes.csv")
+            transcriptomics_df = map_transcriptomics(transciptomics_data = "/tmp/raw_rnaseq_data.csv", improve_id_data = "/tmp/liverpdo_samples.csv", entrez_data = "/tmp/genes.csv")
             transcriptomics_df.to_csv("/tmp/liverpdo_transcriptomics.csv", index=False)
     
     if args.mutations:
@@ -327,7 +327,7 @@ def map_transcriptomics(transciptomics_data, improve_id_data, entrez_data):
             exit()
         else:
             print("Starting mutations data.")
-            mutation_df = map_mutations(mutation_data = "/tmp/raw_mutation_data.csv", improve_id_data = "/tmp/crcpdo_samples.csv", entrez_data = "/tmp/genes.csv")
+            mutation_df = map_mutations(mutation_data = "/tmp/raw_mutation_data.csv", improve_id_data = "/tmp/liverpdo_samples.csv", entrez_data = "/tmp/genes.csv")
             mutation_df.to_csv("/tmp/liverpdo_mutations.csv", index=False)
     
     if args.copy_number:
@@ -339,6 +339,6 @@ def map_transcriptomics(transciptomics_data, improve_id_data, entrez_data):
             exit()
         else:
             print("Starting copy number data.")
-            mutation_df = map_copy_number(copy_number_data = "/tmp/raw_copynum_data.csv", improve_id_data = "/tmp/crcpdo_samples.csv", entrez_data = "/tmp/genes.csv")
+            mutation_df = map_copy_number(copy_number_data = "/tmp/raw_copynum_data.csv", improve_id_data = "/tmp/liverpdo_samples.csv", entrez_data = "/tmp/genes.csv")
             mutation_df.to_csv("/tmp/liverpdo_copy_number.csv", index=False)
     
diff --git a/build/liverpdo/03-drug-liverpdo.py b/build/liverpdo/03-drug-liverpdo.py
@@ -46,13 +46,8 @@ def download_parse_drug_data(synID:str , save_path:str = None, synToken:str = No
 
     # Get the path to the local copy of the data file 
     drugs_filepath = downloaded_data.path
-
-    # Parse the downloaded excel file
-    drugs_excel = pd.ExcelFile(open(drugs_filepath, 'rb'))
-    drugs_data = pd.read_excel(drugs_excel)
-    drugs_data.to_csv("/tmp/raw_druginfo.csv")
     
-    return(drugs_data)
+    return(drugs_filepath)
 
 
 def create_liverpdo_drug_data(drug_info_path:str, prevDrugFilepath:str, output_drug_data_path:str):
@@ -94,17 +89,20 @@ def create_liverpdo_drug_data(drug_info_path:str, prevDrugFilepath:str, output_d
 
     if args.Download:
         if args.Token is None:
-            print("No synpase download tocken was provided. Cannot download data.")
+            print("No synpase download token was provided. Cannot download data.")
             exit()
         else:
             print("Downloading Files from Synapse.")
             # download fitted and raw drug data from synapse
             fitted_drug_data_path = download_parse_drug_data(synID = "syn66401300", save_path = "/tmp/", synToken = args.Token)
+            drug_excel = pd.ExcelFile(open(fitted_drug_data_path, 'rb'))
+            druginfo_df = pd.read_excel(drug_excel)
+            druginfo_df.to_csv("/tmp/raw_druginfo.csv")
     if args.Drug:
         if args.PrevDrugs is None or args.PrevDrugs=='':
             print("No previous drugs file provided.  Starting improve_drug_id from SMI_1. Running drug file generation")
-            create_liverpdo_drug_data(fitted_drug_data_path = "/tmp/raw_druginfo.csv", output_drug_data_path = "/tmp/liverpdo_drugs.tsv", prevDrugFilepath = "")
+            create_liverpdo_drug_data(drug_info_path = "/tmp/raw_druginfo.csv", output_drug_data_path = "/tmp/liverpdo_drugs.tsv", prevDrugFilepath = "")
         else:
             print("Previous drugs file {} detected. Running drugs file generation and checking for duplicate IDs.".format(args.PrevDrugs))
-            create_liverpdo_drug_data(fitted_drug_data_path = "/tmp/raw_druginfo.csv", prevDrugFilepath = args.PrevDrugs, output_drug_data_path = "/tmp/liverpdo_drugs.tsv")
+            create_liverpdo_drug_data(drug_info_path = "/tmp/raw_druginfo.csv", prevDrugFilepath = args.PrevDrugs, output_drug_data_path = "/tmp/liverpdo_drugs.tsv")
 
diff --git a/build/liverpdo/requirements.txt b/build/liverpdo/requirements.txt
@@ -16,4 +16,5 @@ mordred
 tqdm
 #itertools
 scikit-learn
-openpyxl
+openpyxl
+mygene