小編為大家寫這篇帖子之前,查閱了市面上很多關于GEO數(shù)據(jù)庫基因表達譜差異基因分析的帖子,發(fā)現(xiàn)幾乎千篇一律的是直接使用整理好的矩陣文件來操作的。大家都知道,GEO數(shù)據(jù)庫只負責用戶上傳數(shù)據(jù),而不負責對數(shù)據(jù)質量的控制,因此,有小伙伴也會發(fā)現(xiàn),自己下載好的矩陣文件里面基因表達量數(shù)值特別大而且數(shù)據(jù)不集中,究其原因就是GEO數(shù)據(jù)庫的數(shù)據(jù)參差不齊,不能確定上傳者是否對整理好的數(shù)據(jù)進行了標準化處理。今天小編將從GEO芯片的原始數(shù)據(jù)進行分析,也算是一篇另辟蹊徑的帖子吧!
首先,進入GEO的首頁,還是兩種方式任選:1、NCBI官網的GEO DataSets或GEO Profiles進入(進入NCBI數(shù)據(jù)庫后下來搜索框);2、GEO數(shù)據(jù)庫主頁。輸入:Cervical Cancer。點擊search。
跳轉界面后可以依次查看基因芯片注釋,點開里面有關于這張芯片的簡介,找到自己研究所需的即可。
本帖選擇了宮頸癌的表達芯片“GSE89657”來分析。
點擊芯片的標題,就能看到芯片的全部信息了(這點英文還是能看懂的)!
將頁面下拉至底部,這里有三個紅色方框框起來的,第一個是平臺文件(也就是探針信息),第二個是矩陣文件(GEO分析最常用的),第三個是原始文件(數(shù)據(jù)最精確的)。雖然說矩陣文件分析最簡單,但是因為GEO不對芯片數(shù)據(jù)做質量控制,因此矩陣文件在某些時候并不是十分準確的。
下面開始下載數(shù)據(jù)了,首先我們需要下載原始文件,也就是格式為TAR(OF CEL)的文件,點擊http下載原始文件后解壓,下載平臺文件GPL6244-17930(打開整理一下)。這樣我們分析的數(shù)據(jù)就準備好了!
今天為大家介紹一個包分析GEO原始數(shù)據(jù)的affy包。
打開Rsudio,安裝R包。
將解壓好的CEL文件所在的路徑設為工作目錄,加載R包,讀取數(shù)據(jù)(ReadAffy函數(shù)可自動讀取CEL文件),然后對數(shù)據(jù)集進行回歸計算。
下一步需要進行數(shù)據(jù)質量的控制。
首先,上一幅灰度圖,灰度圖中顏色明顯偏白的數(shù)據(jù)代表質量不好的數(shù)據(jù)。
權重圖:可反映數(shù)據(jù)在整體中的重要程度,可以看出,本芯片數(shù)據(jù)較好,芯片質量較高。
殘差圖:主要是在回歸分析中看數(shù)據(jù)的分布情況。
符號殘差圖:和殘差圖差不多的意義,只是圖片在色彩上看著比較絢麗。
質量控制:相對對數(shù)表達(RLE),指一個探針組在某個樣品的表達值除以該探針組在所有樣品中表達之的中位數(shù)后取對數(shù)。反映平行實驗的一致性。
質量控制:相對標準差(NUSE),指一個探針組在某個樣品的PM值的標準差除以該探針組在各樣品中的PM值標準差的中位數(shù)后取對數(shù)。反映平行實驗的一致性
比RLE更為敏感。
質量控制:RNA降解圖,它的原理是RNA降解從5’端開始,因為芯片結果5端熒光強度要遠低于3’端。
GEO的芯片質量控制方法主要是上面幾種,下面開始對數(shù)據(jù)進行整理歸類。首先將解壓好的CEL文件再次解壓,然后建立兩個文件夾:cancer和normal。根據(jù)芯片的注釋按腫瘤組和正常組將解壓好的CEL文件放進新建的兩個文件夾里面。
對正常組進行背景標準化處理
輸出結果
同樣的方法對腫瘤組進行背景標準化處理
再新建一個文件夾命名為cel,將上述用RMA法處理的得到的兩個txt文件放在cel文件下面。 然后將兩組文件合并,得到cancer.probeid.exprs.txt的文件。
將平臺文件GPL6244-17930也放入CEL文件夾里面。對平臺文件與剛剛得到的標準化文件進行整合。
對genesyb這個文件我們需要補充缺失值,本帖采用KNN法,依照表達譜相似性加權來填充缺失值。
通過以上方法,就可以整理出一個真正屬于我們自己的矩陣文件,最后,對自己的矩陣文件求差異基因——使用R語言“l(fā)imma”包。
可以看到,差異基因已經輸出在cel文件下面了。
打開EXCEL文檔。這些便是進入我們求出的差異基因,通過P-value來設定CUT-OFF值后便可得到上下調的差異基因,這些差異基因可以繼續(xù)進行生信分析(且聽以后分解)。
這就是小編今天為大家?guī)淼腉EO數(shù)據(jù)庫基因表達芯片分析流程,雖然有點小復雜,但是仔細鉆研,還是挺有意思!下期,我將為大家介紹無代碼版的GEO數(shù)據(jù)分析方法(不會R語言如何分析GEO基因表達芯片),敬請期待,盡在百味科研芝士!
關注公眾號