背景
方法
本文將藥物反應(yīng)預(yù)測(cè)任務(wù)建模為一個(gè)回歸問(wèn)題,預(yù)測(cè)目標(biāo)是IC50值?;鶞?zhǔn)數(shù)據(jù)集中的樣本總數(shù)為82833,其中包括170種藥物和580種細(xì)胞系。此外,為了發(fā)現(xiàn)新藥 (所有相關(guān)細(xì)胞系未知) 對(duì)細(xì)胞系的敏感性,作者收集了一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)測(cè)試模型。獨(dú)立測(cè)試集中有763個(gè)樣本,包括12種藥物和138個(gè)細(xì)胞系。
作者在CCLE數(shù)據(jù)庫(kù)中獲取細(xì)胞系的多組學(xué)數(shù)據(jù),構(gòu)建了4個(gè)細(xì)胞系特征矩陣,包括3個(gè)基于多組學(xué)數(shù)據(jù)的組學(xué)矩陣和一個(gè)基于已知藥物與細(xì)胞系之間IC50值的Chebyshev距離計(jì)算的相似性矩陣。在特征矩陣中,一行表示細(xì)胞系的特征向量。更具體地說(shuō),首先收集了基準(zhǔn)數(shù)據(jù)集中細(xì)胞系的三種組學(xué)數(shù)據(jù),包括基因表達(dá)、體細(xì)胞突變和拷貝數(shù)變異。然后,從COSMIC數(shù)據(jù)庫(kù)中獲得706個(gè)癌癥相關(guān)基因。最后,構(gòu)建了三個(gè)組學(xué)矩陣來(lái)表示這些細(xì)胞系中與706個(gè)基因相關(guān)的多組學(xué)數(shù)據(jù)。此外,基于已知的藥物與細(xì)胞系之間的IC50值,構(gòu)建了細(xì)胞系-藥物IC50值矩陣。通過(guò)Chebyshev距離計(jì)算得到細(xì)胞系相似性矩陣。
為了獲得豐富的藥物特征,作者收集了藥物的SMILES序列、已知藥物-藥物關(guān)聯(lián)、已知藥物-靶點(diǎn)關(guān)聯(lián)、已知藥物-疾病關(guān)聯(lián)、已知藥物-microRNA關(guān)聯(lián)和已知藥物不良反應(yīng)(ADR)關(guān)聯(lián)?;谶@些藥物多源數(shù)據(jù)和已知的藥物與細(xì)胞系之間的IC50值,構(gòu)建了12個(gè)藥物矩陣。首先,基于分子指紋構(gòu)建了6個(gè)分子指紋矩陣,本文計(jì)算了6種藥物分子指紋圖譜,包括擴(kuò)展連接指紋圖譜(ECFP)、PubChem子結(jié)構(gòu)指紋圖譜(PSFP)、Daylight指紋圖譜(DFP)、RDKit 2D歸一化指紋圖譜(RDKFP)、可解釋子結(jié)構(gòu)分區(qū)指紋圖譜(ESPFP)和擴(kuò)展約簡(jiǎn)圖指紋圖譜(ERGFP)。這些矩陣的行維分別為1024、881、2048、200、2586和315。然后,基于藥物與生物實(shí)體之間的關(guān)聯(lián)/相互作用,構(gòu)建了6個(gè)關(guān)聯(lián)矩陣(即以上提到的五種關(guān)聯(lián),加上藥物和細(xì)胞系的關(guān)聯(lián)),這些矩陣中的行維分別為n、822、5181、636、4693和m,其中n為藥物的數(shù)量,m為細(xì)胞系的數(shù)量。
基于6個(gè)分子指紋矩陣和6個(gè)藥物關(guān)聯(lián)矩陣,通過(guò)切比雪夫距離計(jì)算出12個(gè)n×n維數(shù)的藥物相似矩陣。此外,為了有效整合來(lái)自多個(gè)生物數(shù)據(jù)源的相似信息,使用相似性網(wǎng)絡(luò)融合 (SNF) 算法將12個(gè)藥物相似矩陣融合為一個(gè)n×n維數(shù)的融合相似矩陣。在每個(gè)相似矩陣或融合矩陣中,每一行表示一種藥物的相似向量,第i行和第j列的值表示di和dj之間的相似度。
藥物之間的相互作用模式是預(yù)測(cè)藥物反應(yīng)的重要信息,可從STITCH數(shù)據(jù)庫(kù)中收集藥物-藥物聯(lián)合評(píng)分。首先,使用PubChem化合物id來(lái)映射STITCH數(shù)據(jù)庫(kù)中的化合物id,該數(shù)據(jù)庫(kù)提供了大量已知和預(yù)測(cè)的化合物之間的相互作用。然后,從STITCH數(shù)據(jù)庫(kù)中收集藥物之間的綜合評(píng)分。由于STITCH的化學(xué)-化學(xué)組合評(píng)分范圍為1-1000,將評(píng)分除以1000,以確保藥物的相似度值在0-1之間。最后,構(gòu)造矩陣來(lái)表示成對(duì)藥物之間的組合得分,如果藥物-藥物組合得分已知。矩陣中對(duì)應(yīng)的值為組合分?jǐn)?shù)除以1000,否則設(shè)為0。
已知的藥物-靶標(biāo)相互作用從DrugBank數(shù)據(jù)庫(kù)和DGIdb數(shù)據(jù)庫(kù)中獲得。首先,通過(guò)PubChem數(shù)據(jù)庫(kù)找到藥物的id。然后,使用PubChem id對(duì)DrugBank數(shù)據(jù)庫(kù)中的藥物進(jìn)行映射,獲得已知的藥物與靶標(biāo)之間的相互作用。此外,從DGIdb數(shù)據(jù)庫(kù)中下載已知的藥物-靶標(biāo)相互作用,并使用藥物名稱來(lái)繪制藥物圖。經(jīng)過(guò)篩選和整合,有822個(gè)靶點(diǎn)與基準(zhǔn)數(shù)據(jù)集的藥物有相互作用。構(gòu)造矩陣來(lái)表示基準(zhǔn)數(shù)據(jù)集和822個(gè)靶點(diǎn)中已知的藥物相互作用。如果藥物與靶標(biāo)相互作用,則矩陣對(duì)應(yīng)的值設(shè)為1,否則設(shè)為0。
類似地,作者從CTDbase數(shù)據(jù)庫(kù)中獲得了已知的藥物-疾病關(guān)聯(lián),從ncDR數(shù)據(jù)庫(kù)中獲得了已知的藥物-microRNA關(guān)聯(lián),從SIDER和ADReCS數(shù)據(jù)庫(kù)中獲得了已知的藥物-ADR關(guān)聯(lián),并使用基準(zhǔn)數(shù)據(jù)集中的藥物名稱來(lái)映射這些關(guān)聯(lián)。如果藥物與疾?。ɑ騧icroRNA,或ADR)相關(guān),則矩陣的對(duì)應(yīng)值設(shè)為1,否則設(shè)為0。
接著,使用SNF算法將基于藥物SMILES序列計(jì)算的相似矩陣融合為融合相似矩陣,然后用它來(lái)填充基于藥物相關(guān)生物實(shí)體計(jì)算的相似矩陣。更具體地說(shuō),首先,由于每個(gè)SMILES序列對(duì)應(yīng)一個(gè)獨(dú)特的化學(xué)結(jié)構(gòu),因此基于SMILES序列計(jì)算的相似矩陣密集完整,可以準(zhǔn)確地表示藥物結(jié)構(gòu)的特征。SNF算法可以利用數(shù)據(jù)的互補(bǔ)性,分別計(jì)算和融合從每種類型的數(shù)據(jù)中獲得的相似網(wǎng)絡(luò)。
在步驟1中,對(duì)于di的12個(gè)相似性向量,設(shè)計(jì)了12個(gè)變換矩陣,其中隱含維度設(shè)為128。同樣,對(duì)于cj的特征向量,設(shè)計(jì)了4個(gè)變換矩陣。
在步驟2中,設(shè)計(jì)了一個(gè)交互模塊,包括外積和內(nèi)積單元,以捕獲di和cj之間的細(xì)粒度和粗粒度交互。在外積單元中,首先在變換后的di向量和變換后的cj向量之間進(jìn)行外積運(yùn)算??梢缘玫?8個(gè)(12×4)不同的外部相互作用圖來(lái)表示di-cj。然后利用CNN網(wǎng)絡(luò)從多個(gè)外部交互圖中學(xué)習(xí)外部交互嵌入。CNN網(wǎng)絡(luò)由兩個(gè)殘差塊和一個(gè)CNN層組成,可以有效地利用di和cj交互的局部特征。最后,使用最大池化層從提取的交互嵌入中捕獲全局信息。在內(nèi)積單元中,首先進(jìn)行內(nèi)積運(yùn)算,然后利用MLPInner模塊(全連接層)學(xué)習(xí)嵌入。
在步驟3中,使用三個(gè)類似的MLP模塊來(lái)捕獲di和cj的嵌入。首先使用MLPFused模塊和MLPDrug模塊分別從融合向量和變換向量中聯(lián)合學(xué)習(xí)di的嵌入。然后,使用MLPCell模塊從變換后的向量中學(xué)習(xí)cj的嵌入。MLP模塊中每層的激活函數(shù)為ReLU函數(shù)。
在步驟4中,將di-cj的高階相關(guān)嵌入、di的嵌入和cj的嵌入連接起來(lái),然后將它們饋送到由四個(gè)完全連接層組成的預(yù)測(cè)模塊中,以產(chǎn)生di和cj之間的最終預(yù)測(cè)IC50值。
結(jié)果
作者將MSDRP與一些具有代表性的方法進(jìn)行了比較。表1列出了在整個(gè)驗(yàn)證過(guò)程中測(cè)試集的RMSE,MAE值和相關(guān)系數(shù)。MSDRP具有最低的RMSE和MAE,以及最高的相關(guān)系數(shù),在三個(gè)指標(biāo)上均超越了現(xiàn)有方法。
表1 與其他方法對(duì)比
作者設(shè)計(jì)了模型消融實(shí)驗(yàn),研究了對(duì)MSDRP貢獻(xiàn)最大的藥物特征和細(xì)胞系特征。依次刪除一個(gè)藥物或細(xì)胞系特征,使用剩下的11個(gè)藥物特征或3個(gè)細(xì)胞系特征來(lái)表示藥物或細(xì)胞系的特征,然后重建一個(gè)MSDRP。得到了基于不同數(shù)據(jù)源組合的16個(gè)MSDRP模型。表2顯示了去除一個(gè)藥物特征后的性能。表3顯示了去除一個(gè)細(xì)胞系特征后的性能。對(duì)比表1與表2,表3,可見(jiàn)去除任何一個(gè)數(shù)據(jù)源的特征均會(huì)使性能降低,MSDRP主要優(yōu)點(diǎn)是使用來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。
表2 藥物特征消融實(shí)驗(yàn)
表3 細(xì)胞系特征消融實(shí)驗(yàn)
總結(jié)
參考文獻(xiàn)
[1] Zhao et al. MSDRP: a deep learning model based on multisource data for predicting drug response. Bioinformatics. 2023
聯(lián)系客服