added drug processing script

sgosline · sgosline · commit cf73f120491d · 2024-12-23T11:24:53.000-08:00
Currently untested as it is missing the sample matching component.
diff --git a/build/docker/Dockerfile.pancpdo b/build/docker/Dockerfile.pancpdo
@@ -4,11 +4,13 @@ WORKDIR /usr/src/app
 
 COPY build/pancpdo/01-createPancPDOSamplesFile.py .
 COPY build/pancpdo/02-getPancPDOData.py .
+COPY build/pancpdo/03-getPancPDODrugs.py .
+COPY build/pancpdo/04-getPancPDOExperiments.py .
 COPY build/pancpdo/full_manifest.txt .
 COPY build/pancpdo/requirements.txt .
 COPY build/pancpdo/*sh ./
 COPY build/pancpdo/pancpdo_cancer_types.csv ./
-
+COPY build/utils/* ./
 
 # Set MPLCONFIGDIR to a writable directory
 ENV MPLCONFIGDIR=/app/tmp/matplotlib
diff --git a/build/pancpdo/03-getPancPDODrugs.py b/build/pancpdo/03-getPancPDODrugs.py
@@ -1,7 +1,7 @@
 import pandas as pd
 import os
 import argparse
-import synapseclient
+import synapseclient as sc
 
 
 
@@ -12,37 +12,39 @@
 ##get third tab and drugsa re listeda cross top
 
 
-    
 
-def retrieve_figshare_data(url):
-    """
-    Download data from a given Figshare URL.
-    
-    Parameters
-    ----------
-    url : string
-        The Figshare URL to download data from.
-    
-    Returns
-    -------
-    string
-        Name of the downloaded file.
-    """
-    
-    files_0 = os.listdir()
-    wget.download(url)
-    files_1 = os.listdir()
-    new_file = str(next(iter(set(files_1) - set(files_0))))
-    return new_file
+def getDrugNames(token=""):
+    if token !="":
+        syn = sc.login(token)
+    else:
+        syn = sc.login()
+    fpath = syn.get(synid).path
+    print(fpath)
+    tab = pd.read_excel(fpath,sheet_name='concentrations')
+    drugs = [a.lower() for a in tab.columns]
+    return drugs
+
+
 
 def main():
-    parser = argparse.ArgumentParser(description='Download and match pancpdocdrugs')
-    parser.add_argument('-d', '--prevDrugFile')
-    parser.add_argument('-o', '--output', default = '/tmp/panpdc_drugs.tsv')
+    parser = argparse.ArgumentParser(description='Download and match pancpdodrugs')
+    parser.add_argument('-p', '--pat',help='Synapse authentication token with permission to syn64333325')
+    parser.add_argument('-d', '--prevDrugFile',help='Comma-delimited list of previous drug files')
+    parser.add_argument('-o', '--output', default = '/tmp/pancpdo_drugs.tsv.gz')
+
+    args = parser.parse_args()
+    newdrugs = getDrugNames(args.pat)
+
+    prevdrugs = [pd.read_csv(t,sep='\t') for t in args.prevDrugFile.split(',')]
+    alldrugs = pd.concat(prevdrugs).drop_duplicates()
+
+    imps = alldrugs[alldrugs.chem_name.isin(newdrugs)]
+    newdrugs = alldrugs[alldrugs.improve_drug_id.isin(imps.improve_drug_id)]
 
-    auc_file = retrieve_figshare_data(filelink)
+    ##write drugs
+    newdrugs.to_csv(args.output, sep='\t', compression='gzip', index=False)
 
-    tab = pd.read_excel(auc_file,sheet='')
+    ##calculate drug descriptors
     
     
 if __name__=='__main__':
diff --git a/build/pancpdo/04-getPancPDOExperiments.py b/build/pancpdo/04-getPancPDOExperiments.py
@@ -3,11 +3,105 @@
 import pandas as pd
 import wget
 import argparse
-import synapseclient
+import synapseclient as sc
+import math
 
 
 def main():
     ##current AUC values are here: https://aacr.figshare.com/ndownloader/files/39996295 tabs 2 and 3
     parser = argparse.ArgumentParser()
+    parser.add_argument('-p', '--pat', help='Synapse authentication token')
+    parser.add_argument('-s', '--samples', help='Sample mapping file for panc pdo samples')
+    parser.add_argument('-d', '--drugs', help='Drug mapping file for panc pdo samples')
+    parser.add_argument('-o', '--output', default = '/tmp/pancpdo_doserep.tsv',help='Output file to be read into curve fitting code')
 
-    rawdata = 'syn64333325'
+    args = parser.parse_args()
+    newdata = get_data(args.pat)
+    newdata = newdata.rename(columns={'Organoid':'other_id','Drug':'chem_name','Dose':'DOSE','FracResponse':'GROWTH','Passage':'time'})
+    newdata = newdata[['other_id','chem_name','DOSE','GROWTH']]
+    newdata[['time']]='120'
+    newdata[['time_unit']]='hours'
+    newdata[['study']]='pancpdo'
+    newdata[['source']]='TiriacEtAl2018'
+#    'source', 'improve_sample_id', 'Drug', 'study','time','time_unit'
+    mappedresponse = map_drugs_to_samps(newddata,args.drugs,args,samples)
+    mappedresponse.to_csv(args.output, sep='\t', index=False)
+
+def map_to_drugs_samps(dose_rep,drugfile,sampfile):
+    '''
+    Collect dose response data frame, map drugs and organoids to improve drug and sample ids
+    '''
+    drugs = pd.read_csv(drugfile, sep='\t')
+    samps = pd.read_csv(sampfile)
+
+    merged = dose_rep.merge(drugs).merge(samps)
+    merged = merged[['improve_sample_id','improve_drug_id','DOSE','GROWTH','time','time_unit','study','source']]
+    merged = merged.rename(columns={'improve_drug_id':'Drug'})
+    return merged
+
+def get_data(token):
+    synid = 'syn64333325'
+
+    syn = sc.login(authToken=token)
+    fpath = syn.get(synid).path
+    print(fpath)
+    concs = pd.read_excel(fpath,sheet_name='concentrations')
+
+    responses = pd.read_excel(fpath,sheet_name='Sheet1').dropna(axis=0,how='all')
+
+    ##kludgy way of fixing rows so that all data is in each row
+    newrows=[]
+    org=''
+    passage=''
+    date=''
+    pate=''
+    responses = responses.fillna('').reset_index(drop=True)
+    for rownum, row in responses.iterrows():
+        if row['Organoid']!="":
+            org = row['Organoid']
+            passage = row['Passage']
+            date = row['Date']
+            pate = row['pate']
+        newrows.append({'Organoid':org,'Passage':passage,'Date':date,'pate':pate})
+        
+    releft = pd.DataFrame(newrows)
+    responses.Organoid = releft.Organoid
+    responses.Passage = releft.Passage
+    responses.pate = releft.pate
+    responses.Date = releft.Date
+
+    
+    ##now melt the data into single columns
+    rtab = responses.melt(id_vars = responses.columns[0:4],value_vars=responses.columns[4:10], var_name='Drug',value_name='Response')
+    
+    ##rename the drugs
+    rtab[['Drug','Rep']]=rtab['Drug'].str.lower().str.split('.',expand=True)
+    newrep=[]
+    for r in rtab.Rep:
+        if r is None:
+            newrep.append(0)
+        else:
+            newrep.append(r)
+    rtab.Rep=newrep
+
+    ##renormalize values to max
+    ##IMPORTANT: this is how we normalize without DMSO. We need to consider how we're doing this for EACH ORGANOID
+    ##currently we take the max value of each orgnaoid/replicate. 
+    rtab["MaxRep"] = rtab.groupby(['Drug','Organoid','Rep']).Response.transform('max')
+    rtab['PercResponse'] = (rtab.Response/rtab.MaxRep)*100.00
+
+
+    ##dosenum isa dummy value to use for merging since we need to repeat the concentrations over and over
+    dosenum = [a for a in range(15)]
+    rtab['Dosenum']=dosenum*int(rtab.shape[0]/15)
+               
+    ##merge the concentrations
+    concs = concs.dropna().melt(value_vars=concs.columns,var_name='Drug',value_name='Dose')
+    concs.Drug=concs.Drug.str.lower()
+    concs['Dosenum'] = dosenum*int(concs.shape[0]/15)##creating dosenum here to merge
+
+    
+    return rtab.merge(concs)
+
+if __name__=='__main__':
+    main()
diff --git a/build/pancpdo/build_drugs.sh b/build/pancpdo/build_drugs.sh
@@ -0,0 +1,3 @@
+
+/opt/venv/bin/python3 03-getPancPDODrugs.py --pat $SYNAPSE_AUTH_TOKEN --prevDrugFile=$1 --output=/tmp/pancpdo_drugs.tsv.gz
+/opt/venv/bin/python3 build_drug_desc.py --drugtable /tmp/pancpdo_drugs.tsv.gz --desctable /tmp/pancpdo_drug_descriptors.tsv.gz
diff --git a/build/pancpdo/build_exp.sh b/build/pancpdo/build_exp.sh
@@ -0,0 +1,8 @@
+#!/bin/bash
+set -euo pipefail
+
+trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit 1' ERR
+
+echo "Running 04-drug_dosage_and_curves.py with drugfile $2 and curSampleFile $1"
+/opt/venv/bin/python 04-getPancPDOExperiments.py --pat $SYNAPSE_AUTH_TOKEN --drugs $2 --samples $1 --output /tmp/pancpdo_doserep.tsv
+/opt/venv/bin/python fit_curv.py --input /tmp/panpdo_doserep.tsv --output /tmp/pancpdo_experiments.tsv.gz
diff --git a/mpnstpdx_ignore_chems.txt b/mpnstpdx_ignore_chems.txt

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+`
	`2`	`+/opt/venv/bin/python3 03-getPancPDODrugs.py --pat $SYNAPSE_AUTH_TOKEN --prevDrugFile=$1 --output=/tmp/pancpdo_drugs.tsv.gz`
	`3`	`+/opt/venv/bin/python3 build_drug_desc.py --drugtable /tmp/pancpdo_drugs.tsv.gz --desctable /tmp/pancpdo_drug_descriptors.tsv.gz`