免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
Bioinformatics|MSDRP:基于多源數(shù)據(jù)預(yù)測(cè)藥物反應(yīng)的深度學(xué)習(xí)模型
2023年8月22日,中南大學(xué)王建新教授團(tuán)隊(duì)在Bioinformatics上發(fā)表文章MSDRP: a deep learning model based on multisource data for predicting drug response。


作者提出了一個(gè)深度學(xué)習(xí)框架MSDRP(a deep learning model based on multisource data for predicting drug response),集成多源數(shù)據(jù)用于藥物反應(yīng)預(yù)測(cè)。MSDRP使用交互模塊捕獲藥物與細(xì)胞系之間的相互作用,并通過(guò)相似網(wǎng)絡(luò)融合算法整合藥物與生物實(shí)體之間的多種關(guān)聯(lián)和相互作用,在所有實(shí)驗(yàn)的所有性能指標(biāo)中都優(yōu)于一些最先進(jìn)的模型。

背景 

藥物反應(yīng)預(yù)測(cè)有望幫助醫(yī)生為患者制定個(gè)性化的治療方案。近年來(lái),人們提出了幾種基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的計(jì)算模型來(lái)預(yù)測(cè)體外藥物反應(yīng)。然而,這些方法中的大多數(shù)基于單一藥物描述 (例如藥物結(jié)構(gòu)) 捕獲藥物特征,而沒(méi)有考慮藥物與生物實(shí)體之間的關(guān)系 (例如靶點(diǎn)、疾病和副作用)。此外,這些方法大多分別收集藥物和細(xì)胞系的特征,而沒(méi)有考慮藥物和細(xì)胞系之間的成對(duì)相互作用。

方法

本文將藥物反應(yīng)預(yù)測(cè)任務(wù)建模為一個(gè)回歸問(wèn)題,預(yù)測(cè)目標(biāo)是IC50值?;鶞?zhǔn)數(shù)據(jù)集中的樣本總數(shù)為82833,其中包括170種藥物和580種細(xì)胞系。此外,為了發(fā)現(xiàn)新藥 (所有相關(guān)細(xì)胞系未知) 對(duì)細(xì)胞系的敏感性,作者收集了一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)測(cè)試模型。獨(dú)立測(cè)試集中有763個(gè)樣本,包括12種藥物和138個(gè)細(xì)胞系。

作者在CCLE數(shù)據(jù)庫(kù)中獲取細(xì)胞系的多組學(xué)數(shù)據(jù),構(gòu)建了4個(gè)細(xì)胞系特征矩陣,包括3個(gè)基于多組學(xué)數(shù)據(jù)的組學(xué)矩陣和一個(gè)基于已知藥物與細(xì)胞系之間IC50值的Chebyshev距離計(jì)算的相似性矩陣。在特征矩陣中,一行表示細(xì)胞系的特征向量。更具體地說(shuō),首先收集了基準(zhǔn)數(shù)據(jù)集中細(xì)胞系的三種組學(xué)數(shù)據(jù),包括基因表達(dá)、體細(xì)胞突變和拷貝數(shù)變異。然后,從COSMIC數(shù)據(jù)庫(kù)中獲得706個(gè)癌癥相關(guān)基因。最后,構(gòu)建了三個(gè)組學(xué)矩陣來(lái)表示這些細(xì)胞系中與706個(gè)基因相關(guān)的多組學(xué)數(shù)據(jù)。此外,基于已知的藥物與細(xì)胞系之間的IC50值,構(gòu)建了細(xì)胞系-藥物IC50值矩陣。通過(guò)Chebyshev距離計(jì)算得到細(xì)胞系相似性矩陣。

為了獲得豐富的藥物特征,作者收集了藥物的SMILES序列、已知藥物-藥物關(guān)聯(lián)、已知藥物-靶點(diǎn)關(guān)聯(lián)、已知藥物-疾病關(guān)聯(lián)、已知藥物-microRNA關(guān)聯(lián)和已知藥物不良反應(yīng)(ADR)關(guān)聯(lián)?;谶@些藥物多源數(shù)據(jù)和已知的藥物與細(xì)胞系之間的IC50值,構(gòu)建了12個(gè)藥物矩陣。首先,基于分子指紋構(gòu)建了6個(gè)分子指紋矩陣,本文計(jì)算了6種藥物分子指紋圖譜,包括擴(kuò)展連接指紋圖譜(ECFP)、PubChem子結(jié)構(gòu)指紋圖譜(PSFP)、Daylight指紋圖譜(DFP)、RDKit 2D歸一化指紋圖譜(RDKFP)、可解釋子結(jié)構(gòu)分區(qū)指紋圖譜(ESPFP)和擴(kuò)展約簡(jiǎn)圖指紋圖譜(ERGFP)。這些矩陣的行維分別為1024、881、2048、200、2586和315。然后,基于藥物與生物實(shí)體之間的關(guān)聯(lián)/相互作用,構(gòu)建了6個(gè)關(guān)聯(lián)矩陣(即以上提到的五種關(guān)聯(lián),加上藥物和細(xì)胞系的關(guān)聯(lián)),這些矩陣中的行維分別為n、822、5181、636、4693和m,其中n為藥物的數(shù)量,m為細(xì)胞系的數(shù)量。

基于6個(gè)分子指紋矩陣和6個(gè)藥物關(guān)聯(lián)矩陣,通過(guò)切比雪夫距離計(jì)算出12個(gè)n×n維數(shù)的藥物相似矩陣。此外,為了有效整合來(lái)自多個(gè)生物數(shù)據(jù)源的相似信息,使用相似性網(wǎng)絡(luò)融合 (SNF) 算法將12個(gè)藥物相似矩陣融合為一個(gè)n×n維數(shù)的融合相似矩陣。在每個(gè)相似矩陣或融合矩陣中,每一行表示一種藥物的相似向量,第i行和第j列的值表示didj之間的相似度。

藥物之間的相互作用模式是預(yù)測(cè)藥物反應(yīng)的重要信息,可從STITCH數(shù)據(jù)庫(kù)中收集藥物-藥物聯(lián)合評(píng)分。首先,使用PubChem化合物id來(lái)映射STITCH數(shù)據(jù)庫(kù)中的化合物id,該數(shù)據(jù)庫(kù)提供了大量已知和預(yù)測(cè)的化合物之間的相互作用。然后,從STITCH數(shù)據(jù)庫(kù)中收集藥物之間的綜合評(píng)分。由于STITCH的化學(xué)-化學(xué)組合評(píng)分范圍為1-1000,將評(píng)分除以1000,以確保藥物的相似度值在0-1之間。最后,構(gòu)造矩陣來(lái)表示成對(duì)藥物之間的組合得分,如果藥物-藥物組合得分已知。矩陣中對(duì)應(yīng)的值為組合分?jǐn)?shù)除以1000,否則設(shè)為0。

已知的藥物-靶標(biāo)相互作用從DrugBank數(shù)據(jù)庫(kù)和DGIdb數(shù)據(jù)庫(kù)中獲得。首先,通過(guò)PubChem數(shù)據(jù)庫(kù)找到藥物的id。然后,使用PubChem id對(duì)DrugBank數(shù)據(jù)庫(kù)中的藥物進(jìn)行映射,獲得已知的藥物與靶標(biāo)之間的相互作用。此外,從DGIdb數(shù)據(jù)庫(kù)中下載已知的藥物-靶標(biāo)相互作用,并使用藥物名稱來(lái)繪制藥物圖。經(jīng)過(guò)篩選和整合,有822個(gè)靶點(diǎn)與基準(zhǔn)數(shù)據(jù)集的藥物有相互作用。構(gòu)造矩陣來(lái)表示基準(zhǔn)數(shù)據(jù)集和822個(gè)靶點(diǎn)中已知的藥物相互作用。如果藥物與靶標(biāo)相互作用,則矩陣對(duì)應(yīng)的值設(shè)為1,否則設(shè)為0。

類似地,作者從CTDbase數(shù)據(jù)庫(kù)中獲得了已知的藥物-疾病關(guān)聯(lián),從ncDR數(shù)據(jù)庫(kù)中獲得了已知的藥物-microRNA關(guān)聯(lián),從SIDER和ADReCS數(shù)據(jù)庫(kù)中獲得了已知的藥物-ADR關(guān)聯(lián),并使用基準(zhǔn)數(shù)據(jù)集中的藥物名稱來(lái)映射這些關(guān)聯(lián)。如果藥物與疾?。ɑ騧icroRNA,或ADR)相關(guān),則矩陣的對(duì)應(yīng)值設(shè)為1,否則設(shè)為0。

接著,使用SNF算法將基于藥物SMILES序列計(jì)算的相似矩陣融合為融合相似矩陣,然后用它來(lái)填充基于藥物相關(guān)生物實(shí)體計(jì)算的相似矩陣。更具體地說(shuō),首先,由于每個(gè)SMILES序列對(duì)應(yīng)一個(gè)獨(dú)特的化學(xué)結(jié)構(gòu),因此基于SMILES序列計(jì)算的相似矩陣密集完整,可以準(zhǔn)確地表示藥物結(jié)構(gòu)的特征。SNF算法可以利用數(shù)據(jù)的互補(bǔ)性,分別計(jì)算和融合從每種類型的數(shù)據(jù)中獲得的相似網(wǎng)絡(luò)。

以藥物-細(xì)胞系對(duì)(di-cj)為例。對(duì)于藥物di,提取每個(gè)相似矩陣和融合矩陣的第i行,分別生成12個(gè)特征向量。同樣,對(duì)于細(xì)胞系cj,提取每個(gè)特征矩陣的第j行,生成4個(gè)細(xì)胞系特征向量。接著,MSDRP模型可以描述為四個(gè)步驟(如圖1): (1)將di的12個(gè)相似向量和cj的4個(gè)特征向量投影到同一維的向量空間中;(2)通過(guò)交互模塊捕獲dicj交互嵌入;(3)通過(guò)MLPFused模塊、MLPDrug模塊和MLPCell模塊提取dicj的表示;(4)對(duì)di-cj的高階相關(guān)嵌入、di的嵌入和cj的嵌入進(jìn)行融合,然后送入預(yù)測(cè)模塊進(jìn)行IC50值的預(yù)測(cè)。
圖1 MSDRP結(jié)構(gòu)圖

在步驟1中,對(duì)于di的12個(gè)相似性向量,設(shè)計(jì)了12個(gè)變換矩陣,其中隱含維度設(shè)為128。同樣,對(duì)于cj的特征向量,設(shè)計(jì)了4個(gè)變換矩陣。

在步驟2中,設(shè)計(jì)了一個(gè)交互模塊,包括外積和內(nèi)積單元,以捕獲dicj之間的細(xì)粒度和粗粒度交互。在外積單元中,首先在變換后的di向量和變換后的cj向量之間進(jìn)行外積運(yùn)算??梢缘玫?8個(gè)(12×4)不同的外部相互作用圖來(lái)表示di-cj。然后利用CNN網(wǎng)絡(luò)從多個(gè)外部交互圖中學(xué)習(xí)外部交互嵌入。CNN網(wǎng)絡(luò)由兩個(gè)殘差塊和一個(gè)CNN層組成,可以有效地利用dicj交互的局部特征。最后,使用最大池化層從提取的交互嵌入中捕獲全局信息。在內(nèi)積單元中,首先進(jìn)行內(nèi)積運(yùn)算,然后利用MLPInner模塊(全連接層)學(xué)習(xí)嵌入。

在步驟3中,使用三個(gè)類似的MLP模塊來(lái)捕獲dicj的嵌入。首先使用MLPFused模塊和MLPDrug模塊分別從融合向量和變換向量中聯(lián)合學(xué)習(xí)di的嵌入。然后,使用MLPCell模塊從變換后的向量中學(xué)習(xí)cj的嵌入。MLP模塊中每層的激活函數(shù)為ReLU函數(shù)。

在步驟4中,將di-cj的高階相關(guān)嵌入、di的嵌入和cj的嵌入連接起來(lái),然后將它們饋送到由四個(gè)完全連接層組成的預(yù)測(cè)模塊中,以產(chǎn)生dicj之間的最終預(yù)測(cè)IC50值。

結(jié)果

作者將MSDRP與一些具有代表性的方法進(jìn)行了比較。表1列出了在整個(gè)驗(yàn)證過(guò)程中測(cè)試集的RMSE,MAE值和相關(guān)系數(shù)。MSDRP具有最低的RMSE和MAE,以及最高的相關(guān)系數(shù),在三個(gè)指標(biāo)上均超越了現(xiàn)有方法。

表1 與其他方法對(duì)比

作者設(shè)計(jì)了模型消融實(shí)驗(yàn),研究了對(duì)MSDRP貢獻(xiàn)最大的藥物特征和細(xì)胞系特征。依次刪除一個(gè)藥物或細(xì)胞系特征,使用剩下的11個(gè)藥物特征或3個(gè)細(xì)胞系特征來(lái)表示藥物或細(xì)胞系的特征,然后重建一個(gè)MSDRP。得到了基于不同數(shù)據(jù)源組合的16個(gè)MSDRP模型。表2顯示了去除一個(gè)藥物特征后的性能。表3顯示了去除一個(gè)細(xì)胞系特征后的性能。對(duì)比表1與表2,表3,可見(jiàn)去除任何一個(gè)數(shù)據(jù)源的特征均會(huì)使性能降低,MSDRP主要優(yōu)點(diǎn)是使用來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。

表2 藥物特征消融實(shí)驗(yàn)

表3 細(xì)胞系特征消融實(shí)驗(yàn)


作者還進(jìn)行了案例分析,從數(shù)據(jù)集中選擇急性髓系白血病(Acute myeloid leukemia, AML)細(xì)胞系共10個(gè),然后從基準(zhǔn)數(shù)據(jù)集中刪除與這些細(xì)胞系相關(guān)的藥物反應(yīng),并使用剩余的藥物反應(yīng)作為訓(xùn)練集。MSDRP預(yù)測(cè)了170種藥物與這些細(xì)胞系之間的IC50值,并繪制了圖2。如圖所示,MSDRP發(fā)現(xiàn)阿糖胞苷(Cytarabine)等9種藥物對(duì)這些AML細(xì)胞系敏感(具有較低的IC50值),并且一些生物學(xué)實(shí)驗(yàn)表明上述9種藥物可以在AML中發(fā)揮治療作用,這表明MSDRP可以作為預(yù)測(cè)藥物反應(yīng)的有力工具。
圖2 案例分析

總結(jié)

在本文中,作者開(kāi)發(fā)了一種新的深度學(xué)習(xí)方法,整合藥物和細(xì)胞系的多源數(shù)據(jù)來(lái)預(yù)測(cè)藥物反應(yīng)。MSDRP引入交互模塊和SNF算法來(lái)整合多源藥物和細(xì)胞系異構(gòu)數(shù)據(jù)。與現(xiàn)有方法相比,MSDRP在藥物反應(yīng)預(yù)測(cè)任務(wù)上表現(xiàn)更好。
然而,MSDRP也具有一些局限性。首先,已知藥物與生物實(shí)體之間的關(guān)聯(lián)或相互作用是不完整的,導(dǎo)致關(guān)聯(lián)矩陣稀疏。其次,樣本數(shù)量對(duì)模型訓(xùn)練至關(guān)重要,但收集大量已知藥物和細(xì)胞系之間的IC50值是困難的。此外,由于藥物是由分子組成的,因此能夠通過(guò)圖來(lái)表示藥物是更理想的情況。
未來(lái),作者將進(jìn)一步收集與藥物相關(guān)的數(shù)據(jù),并考慮使用GNN來(lái)捕獲藥物的圖級(jí)表示。

參考文獻(xiàn)

[1] Zhao et al. MSDRP: a deep learning model based on multisource data for predicting drug response. Bioinformatics. 2023

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
協(xié)方差矩陣的特征向量指的是什么?
漫談圖神經(jīng)網(wǎng)絡(luò) (三)
陳小天:還在靠人工處理特征?時(shí)間序列模型了解下!
PCA數(shù)學(xué)原理
線性代數(shù)問(wèn)題:當(dāng)矩陣中每個(gè)列向量的和都為1時(shí),一定有一個(gè)特征值是1,這個(gè)怎么推導(dǎo)啊?
BIB|基于機(jī)器學(xué)習(xí)的藥物與靶點(diǎn)相互作用預(yù)測(cè)方法綜述
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服