上次為大家介紹了分析GEO數(shù)據(jù)庫基因表達(dá)譜差異基因的R版本,可能很多小伙伴在運(yùn)行R時候會出現(xiàn)很多報錯,導(dǎo)致R代碼運(yùn)行失敗,不過沒關(guān)系(再調(diào)整代碼),今天我將為大家解決“不懂R,如何分析GEO數(shù)據(jù)庫基因表達(dá)譜的差異基因?”這個問題。
開始部分的處理和R版的是相同的。首先,進(jìn)入GEO的首頁,兩種方法,大家可以回憶一下。進(jìn)入主頁搜索框后輸入“cervical cancer”,點(diǎn)擊search。
跳轉(zhuǎn)界面看注釋,尋找感興趣的基因表達(dá)芯片。
本帖還是選擇了宮頸癌的基因表達(dá)芯片“GSE89657”來分析。
點(diǎn)擊芯片標(biāo)題,查看注釋信息。
下拉頁面至最底端!直接點(diǎn)擊GEO2R選項,GEO2R是GEO數(shù)據(jù)庫自帶的在線分析工具,本帖將介紹使用GEO2R分析差異基因。
點(diǎn)擊GEO2R后彈出如下界面,這步最重要的是定義分組。
首先需要對樣本芯片進(jìn)行分組,下拉Define groups,分別創(chuàng)建兩個分組T(腫瘤組),C(對照組),分別點(diǎn)擊回車鍵完成分組
對樣本進(jìn)行分組:選擇各樣本后點(diǎn)擊T或C,就可完成分組
下拉頁面,有“TOP250選項”和“Save all results”兩個選項,前者是保存前250個基因(按P-Value大小排序),后者則是這張芯片的全部基因。
點(diǎn)擊“Save all results”選項,跳轉(zhuǎn)頁面。
新建一個GEO2R.txt文件,將以上結(jié)果粘貼在txt文檔里面,用EXCEL打開,篩選logFC>1或logFC<-1,P<0.05的為差異基因。
最終,通過整理(本帖中刪除了沒有基因名字的行,所有和原文差異基因數(shù)量有差別),共篩選出2317個差異基因,其中上調(diào)的基因915個,下調(diào)的基因1402個。
GEO2R計算出來的差異基因沒有基因的表達(dá)矩陣,因此我們需要下載矩陣文件,并且需要將矩陣文件里面的基因探針I(yè)D與剛剛求出的差異基因的genesymbol進(jìn)行匹配。我們用excel打開下載好的矩陣文件GSE89657_series_matrix,在列T,U粘貼差異基因的ID和genesymbol兩列,列V開始將芯片中的樣本按順序復(fù)制。
我們需要用到EXCEL中的VLOOKUP匹配函數(shù),它的表達(dá)式書寫是VLOOKUP(查
找值,數(shù)據(jù)的范圍,列序號,匹配條件)。首先我們在表格V2書寫“=VLOOKUP(T2,
$A$2:$S$33298,2,FALSE)”,它的意思是在$A$2:$S$33298這個范圍(圖中粉色區(qū)域)中的查找與T2匹配的數(shù)據(jù),將與T2匹配后的第2列那個數(shù)據(jù)寫入V2(V2的樣本與第2列樣本名相同)。
返回一個數(shù)據(jù)后,如圖出現(xiàn)綠色外框,點(diǎn)擊右下角的十字符號,下來至差異基因最后一行。
同樣,在W2書寫函數(shù)表達(dá)式“=VLOOKUP(T2,$A$2:$S$33298,3,FALSE)”,下拉匹配,依次對18個樣本進(jìn)行匹配。
最后,通過匹配,我們就能得到一個關(guān)于genesymbol的表達(dá)矩陣了,可以用于制作熱圖及其他分析。
另外,GEO2R分析中,也提供了芯片質(zhì)量控制的箱線圖。點(diǎn)擊value distribution,查看箱線圖。
此外,GEO2R工具也是基于R語言的分析工具,我們可以點(diǎn)擊R script查看R代碼,這些代碼可以修改后供以后分析使用。
以上分析完成后,給大家介紹一個生信小工具——Sangerbox,這個是由生信人團(tuán)隊自主開發(fā)的軟件,里面有很多小工具可供使用,非常不錯,下次可以為大家詳細(xì)介紹。
下面,我們點(diǎn)開火山圖繪制工具,上傳GEO2R.txt文件,其他參數(shù)不用修改,點(diǎn)擊繪圖,導(dǎo)出PDF,一幅漂亮的火山圖就展現(xiàn)在我們眼前了,是不是挺容易的。
點(diǎn)擊“簡易heatmap制作工具”,上傳整合好的genesymbol表達(dá)矩陣,比如這里挑選TOP50基因,設(shè)置參數(shù),即可得到如下的熱圖,這工具是不是非常過癮。
接下來,進(jìn)行GO和KEGG分析,使用最簡單的DAVID網(wǎng)站分析(教程見前面的帖子)。點(diǎn)擊chart查看差異基因參與的生物學(xué)過程、分子構(gòu)成、分子功能,也就是對基因進(jìn)行的注釋工作。