目前很多對于公共測序數(shù)據(jù)的分析,很多都是集中在腫瘤數(shù)據(jù)當(dāng)中,主要原因還是在于,腫瘤有一個(gè)TCGA的數(shù)據(jù)庫。倒不是說TCGA數(shù)據(jù)庫有多大的樣本,而是在于TCGA數(shù)據(jù)庫可以獲得每個(gè)患者的臨床數(shù)據(jù)。基于這些內(nèi)容,我們在分析的時(shí)候,除了做基本的差異,同時(shí)可以看預(yù)后等等的。
而對于其他的疾病的患者,其數(shù)據(jù)的來源主要還是GEO。而GEO數(shù)據(jù)由于都是作者決定上傳什么數(shù)據(jù)的,所以基本上除了每個(gè)樣本的測序信息,以及一個(gè)基本的分組。對于每個(gè)患者的其他信息,比如年齡性別這類的基本信息以及臨床相關(guān)信息很少有包括在內(nèi)的。這也就導(dǎo)致我們經(jīng)常只能做一個(gè)簡單的分組。所以相對來說分析的內(nèi)容少,內(nèi)容少了那文章肯定也就不好發(fā)了。
在最近的EbioMedicine里面發(fā)表了一篇非腫瘤的生信文章。基于這個(gè)文章倒是可以看一下如果臨床信息少的病種來怎么進(jìn)行分析的。
通過以上的題目,我們可以了解到這個(gè)文章主要做的還是敗血癥的研究。下面就簡單的介紹一下這個(gè)文章的框架吧。
對于這類的文章,其實(shí)第一步就是來尋找可用的數(shù)據(jù)集。為了保證選擇的數(shù)據(jù)量多,作者利用GEO和AarryExpress兩個(gè)數(shù)據(jù)庫檢索符合要求的數(shù)據(jù)。在進(jìn)行一系列的篩選,最后獲得了12個(gè)和敗血癥相關(guān)的數(shù)據(jù)集。
PS:在這里需要注意的是,由于要合并多個(gè)數(shù)據(jù)集,所以要進(jìn)行批次效應(yīng)的去除。
在獲得基本的數(shù)據(jù)集之后,作者使用其中一個(gè)數(shù)據(jù)集來通過非監(jiān)督聚類k-means的方法來對樣本進(jìn)行分組。通過聚類分析,作者把數(shù)據(jù)集分成了兩個(gè)分類。
由于樣本分成了兩個(gè)分類,所以作者利用對兩個(gè)分類進(jìn)行了差異分析,最后對這些差異基因進(jìn)行富集分析來了解不同兩個(gè)分類主要是哪些功能發(fā)揮作用。
在進(jìn)行差異分析的時(shí)候,我們會得到很多差異基因,對于基因很多,我們沒辦法進(jìn)行核心基因的選擇。為了選擇一個(gè)可以能夠評估兩個(gè)分組的基因組合模型。作者使用了GALGO算法來進(jìn)行基因模型的選擇。都選擇好基因之后,作者使用了其他數(shù)據(jù)集來進(jìn)行了外部數(shù)據(jù)集驗(yàn)證。來證明這幾個(gè)可以來進(jìn)行不同臨床特征的預(yù)測。
以上就是這個(gè)文章的主要內(nèi)容。通過這個(gè)文章,其實(shí)我們可以借鑒的就是,對于臨床信息少的疾病。我們可以通過增加數(shù)據(jù)集的方式來增加文章的內(nèi)容。進(jìn)一步的,相較于之前的差異等等,可以通過加載一些機(jī)器學(xué)習(xí)甚至深度學(xué)習(xí)的算法來進(jìn)行分析的準(zhǔn)確性。所以如果是研究其他疾病的,可以嘗試一下這個(gè)模式的哈。
PS:文章當(dāng)中用到的算法什么的都是很經(jīng)典的,相對來說也不難實(shí)現(xiàn)。另外作圖啥的,也都是最基本的圖形。