今天在omicshare平臺(tái)上發(fā)現(xiàn)了兩個(gè)很好的在線工具,也有教程,轉(zhuǎn)載一下。
一、GO富集介紹:
Gene
Ontology(簡稱GO)是一個(gè)國際標(biāo)準(zhǔn)化的基因功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled
vocabulary)來全面描述生物體中基因和基因產(chǎn)物的屬性。GO總共有三個(gè)ontology(本體),分別描述基因的分子功能(molecular
function)、細(xì)胞組分(cellular component)、參與的生物過程(biological
process)。GO的基本單位是term(詞條、節(jié)點(diǎn)),每個(gè)term都對(duì)應(yīng)一個(gè)屬性。
富集的含義:
每個(gè)基因都會(huì)對(duì)應(yīng)有一個(gè)或多個(gè)GO term(也就是GO功能)。
富集涉及到兩個(gè)概念:前景基因和背景基因。前景基因就是你關(guān)注的要重點(diǎn)研究的基因集,背景基因就是所有的基因集。比如做兩個(gè)樣本對(duì)照組和處理組的轉(zhuǎn)錄組測(cè)序,前景基因就是對(duì)照組vs處理組的差異基因,背景基因就是這兩組樣本的所有表達(dá)基因。再比如,我想知道與整個(gè)廣東省相比,深圳市的大學(xué)生是不是顯著更多(“大學(xué)生”就相當(dāng)于深圳市民的其中一個(gè)GO
term)。那么前景就是深圳市的人口,背景就是廣東省的人口,每個(gè)個(gè)體都會(huì)有一個(gè)標(biāo)簽(如大學(xué)生、中學(xué)生、小學(xué)生等)。
富集的意思就是,某個(gè)GO
term在所關(guān)注的前景基因集中占的比例要顯著高于在所有背景基因集中所占的比例。比如上面的例子,深圳市大學(xué)生顯著富集,意思就是深圳市本科畢業(yè)的人口所占深圳市總?cè)丝诘谋壤@著高于廣東省本科畢業(yè)人口在廣東省總?cè)丝谥兴嫉谋壤?。例如下圖,我們要計(jì)算的就是10%與2%相比是否有顯著性。
那么,這個(gè)“顯著性”是如何計(jì)算的呢?就是我們眾所周知的P value。P value是利用超幾何檢驗(yàn)計(jì)算出來的,具體公式如下:
其中,N為所有Unigene中具有GO注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定GO term的基因數(shù)目;m為注釋為某特定GO term的差異表達(dá)基因數(shù)目。
計(jì)算得到的P value會(huì)進(jìn)一步經(jīng)過多重檢驗(yàn)校正,得到corrected-pvalue(也就是Q value)。通常我們會(huì)以Q value≤0.05為閾值,滿足此條件的GO term定義為在差異表達(dá)基因中顯著富集的GO term。
二、數(shù)據(jù)準(zhǔn)備:
明白了GO富集的原理后,我們需要準(zhǔn)備的數(shù)據(jù)就只有兩份:前景基因文件和背景基因文件。
富集目的基因文件(前景基因文件):就是你要富集分析的基因集。在上面的例子中,就是對(duì)照組vs處理組的差異表達(dá)基因。格式為每行一個(gè)基因ID,文本文件(制表符分隔)(*.txt)。
GO背景基因文件:就是所有的基因集,在上面的例子中,就是對(duì)照組和處理組所有的表達(dá)基因。1)如果你研究的物種是有參考基因組的模式物種,那么可以直接使用數(shù)據(jù)庫上已有的參考基因作為背景基因文件。目前提供的物種有水稻、擬南芥、小鼠、大鼠、斑馬魚、雞、秀麗線蟲、果蠅、人。ID類型可選擇基因ID或轉(zhuǎn)錄本ID,根據(jù)富集目的基因的ID類型決定。如果不清楚自己的文件是什么ID,可以點(diǎn)擊“預(yù)覽參考文件”來查看具體ID。后面的“版本”是最新的Ensemble版本號(hào)。
2)如果你研究的物種不在這些選擇范圍內(nèi),那么就要自己準(zhǔn)備GO背景基因文件了。
因?yàn)橐粋€(gè)基因可有多個(gè)GO term,所以文件格式有兩種:一種為第一列為基因ID,第二列為所對(duì)應(yīng)的GO term,如下表:
另一種為第一列是基因ID,第二列之后為同一個(gè)基因的所有GO號(hào),這種格式也是我們基迪奧的轉(zhuǎn)錄組denovo流程出來的結(jié)果格式,如下表:
上傳這兩種格式中的任何一種都是可以的~ 要記住,前景基因文件里的基因ID必須包含在背景基因文件里面!
如何得到基因的GO注釋?
有一些同學(xué)不知道如何獲得背景基因的GO號(hào)。通常,如果你的數(shù)據(jù)是從公司測(cè)序得到的,那么測(cè)序報(bào)告里都會(huì)有。如果你是自己搗騰的數(shù)據(jù),那么,如果是無參考基因組的物種,就需要根據(jù)unigene的Nr注釋,用Blast2go軟件得到unigene的GO注釋信息。具體Blast2go的使用,可參考我們第二期在線交流課堂:http://www.omicshare.com/forum/thread-176-1-1.html。如果是有參考基因組的物種,可以在GO 官網(wǎng)上下載GO注釋信息,也可以在Biomart上下載物種的GO注釋信息,我們也有相應(yīng)的教程:http://www.omicshare.com/forum/thread-437-1-1.html。
上傳完這兩個(gè)文件后,點(diǎn)擊“提交”就OK了。等著收菜~~
三、結(jié)果解讀: 這次我試運(yùn)行的數(shù)據(jù)為荔枝趨勢(shì)分析文章里的趨勢(shì)分析結(jié)果數(shù)據(jù),我以profile1包含的基因?yàn)榍熬盎蚣?,所有趨?shì)包含的基因?yàn)楸尘盎蚣?,做GO富集分析。
1. GO二級(jí)分類圖(out.secLevel.png/svg)
這個(gè)圖顯示了profile1的基因在各個(gè)GO term的數(shù)目和富集情況。橫坐標(biāo)代表GO三個(gè)
ontology的更細(xì)一級(jí)分類,即二級(jí)分類;縱坐標(biāo)代表每個(gè)分類條目所包含的基因數(shù)目。由于一個(gè)基因常常對(duì)應(yīng)多個(gè)GO
term,因此同一個(gè)基因會(huì)在不同分類條目下出現(xiàn),即被多次統(tǒng)計(jì),因此如果你把這里所有柱子的基因數(shù)目加起來,肯定是多于profiel1總的基因數(shù)目的。
2. GO富集結(jié)果表(out.[PFC].html ) 三個(gè)Ontology(C, F, P)會(huì)分別展示。以生物過程(biological process)為例子,如下表:
第一列為GO term的ID,點(diǎn)擊GO ID,可顯示這個(gè)GO term包含的所有基因:
再點(diǎn)擊這個(gè)GO ID,就可以鏈接到http://amigo.geneontology.org 官網(wǎng),可以查看GO的具體信息。
第二列為GO term的功能描述;
第三列前面的數(shù)字為差異表達(dá)基因中富集到這個(gè)GO term的基因數(shù),后面的數(shù)字為差異表達(dá)基因的總數(shù);
第四列前面的數(shù)字為背景基因中富集到這個(gè)GO term的基因數(shù),后面的數(shù)字為背景基因的總數(shù);
第五列為P value,即計(jì)算第三列的百分比與第四列的百分比相比,是否有顯著差異。我們將小于0.05的P value標(biāo)紅顯示;
第六列為多重檢驗(yàn)校正后的Q value,也是把小于0.05的Q value標(biāo)紅顯示。這些GO term是按照P value從小到大排列的,方便老師找差異富集結(jié)果。如在這個(gè)例子中,microtubule-based process為在差異基因中富集最顯著的GO term,說明profile1中的基因顯著富集于這個(gè)功能。
3. GO有向無環(huán)圖(out.C/P/F.png)
從整體上來看,GO注釋系統(tǒng)是一個(gè)有向無環(huán)圖(Directed Acyclic Graphs),GO各term之間的關(guān)系是單向的,GO term之間的分類關(guān)系有三種:is a、part of 和 regulates。具體的解釋可看這個(gè)帖子:http://www.omicshare.com/forum/thread-538-1-1.html。富集分析結(jié)果會(huì)分別給出GO三個(gè)ontology(細(xì)胞組分、分子功能、生物過程)的有向無環(huán)圖,如下圖是生物過程的有向無環(huán)圖:
在這個(gè)圖中,越接近根結(jié)點(diǎn)的GO term越概括,往下分支的GO term為注釋到更細(xì)層級(jí)的term。我們來看每個(gè)GO term里的含義:
其中,Pvalue 這一行,如果大于0.05,即會(huì)顯示NA,即圖中只顯示顯著的P value。
形狀的含義:程序默認(rèn)把顯著性最高的前10個(gè)GO term設(shè)置為方形,其他的GO term為圓形。
顏色的含義:顏色越深,代表該GO term越顯著。顏色由淺到深分別為:無色——淺黃——深黃——紅色。
那么,從顏色上來看,在molecular function這個(gè)ontology上,最顯著的GO term是GO:0003774。因此后續(xù)可以從這個(gè)GO term入手,這個(gè)GO term所在的分支上的其他GO term也值得研究。
意義:
GO有向無環(huán)圖展示了GO term之間的分類關(guān)系,并且從另一方面幫助老師尋找顯著富集的GO term。
四、引用
大家如果在數(shù)據(jù)處理的過程中,使用了我們的omicshare tools云工具網(wǎng)站,那么在文章中的method部分可以這樣引用:GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。
五、詳細(xì)版:英文method 加 引用
Gene Ontology (GO)is an international standardized gene functional classification system whichoffers a dynamic-updated controlled vocabulary and a strictly defined conceptto comprehensively describe properties of genes and their products in anyorganism. GO has three ontologies: molecular function, cellular component andbiological process. The basic unit of GO is GO-term. Each GO-term belongs to a type of ontology.
GO enrichment analysis provides all GO terms that significantly enriched in DEGs comparing to the genome background, and filter the DEGs that correspond to biological functions. GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。Firstly all DEGs were mapped to GO terms in the Gene Ontology database (http://www.geneontology.org/), gene numbers were calculated for every term, significantly enriched GO terms in DEGs comparing to the genome background were defined by hypergeometric test. The calculated p-value was gone through FDR Correction, taking FDR ≤ 0.05 as a threshold. GO terms meeting this condition were defined as significantly enriched GO terms in DEGs. This analysis was able to recognize the main biological functions that DEGs exercise.
二、Pathway富集介紹
KEGG(Kyoto
Encyclopedia of Genes and
Genomes)數(shù)據(jù)庫是系統(tǒng)地分析基因功能、鏈接基因組信息和功能信息的數(shù)據(jù)庫,包括代謝通路(pathway)數(shù)據(jù)庫、分層分類數(shù)據(jù)庫、基因數(shù)據(jù)庫、基因組數(shù)據(jù)庫等。KEGG的pathway數(shù)據(jù)庫是應(yīng)用最廣泛的代謝通路公共數(shù)據(jù)庫。
富集的含義:
這里pathway富集的含義與GO富集的含義相同,也是表示差異基因中注釋到某個(gè)代謝通路的基因數(shù)目在所有差異基因中的比例顯著大于背景基因中注釋到某個(gè)代謝通路的基因數(shù)目在所有背景基因中的比例。因此,做pathway富集分析,也是涉及到前景基因和背景基因。前景基因就是你關(guān)注的要重點(diǎn)研究的基因集,背景基因就是所有的基因集。
富集顯著性(P value)的計(jì)算:
計(jì)算方法和公式與GO富集分析一樣,也是利用超幾何檢驗(yàn)計(jì)算:
其中,N為所有基因中具有Pathway注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有基因中注釋為某特定Pathway的基因數(shù)目;m為注釋為某特定Pathway的差異表達(dá)基因數(shù)目。
計(jì)算得到的P value會(huì)進(jìn)一步經(jīng)過多重檢驗(yàn)校正,得到corrected-pvalue(也就是Q value)。通常我們會(huì)以Q value≤0.05為閾值,滿足此條件的pathway定義為在差異表達(dá)基因中顯著富集的pathway。
二、數(shù)據(jù)準(zhǔn)備
需要準(zhǔn)備的數(shù)據(jù)有兩份:富集目的基因文件、背景基因表
1. 富集目的基因文件:
就是你要用來富集的前景基因表,比如某個(gè)比較組的差異表達(dá)基因。
數(shù)據(jù)格式:第一列為基因ID,之后可以有基因表達(dá)信息、注釋信息等,但要注意的是第一列的基因ID必須有。
注意:富集目的基因文件的基因ID必須包含在背景基因文件中。
2. 背景基因表:
即所有基因的列表,比如所有組樣本的基因。
數(shù)據(jù)格式:第一列為基因ID,第二列為用于獲取pathway的ID,有三種類型可供選擇:
獲取背景文件對(duì)大部分用戶來說,會(huì)比較困難,理論上有三種方法獲?。?br>(1)如果是基迪奧客戶,在結(jié)題報(bào)告中就包含相關(guān)背景注釋文件(如果沒有可以聯(lián)系我們技術(shù)支持索?。?;
(2)如果是其他公司的數(shù)據(jù)的用戶,建議可以聯(lián)系對(duì)應(yīng)公司的售后服務(wù)人員索取這樣的文件;
(3)如果有生物信息基礎(chǔ)的用戶,自行從KEGG官網(wǎng)下載基礎(chǔ)的素材,然后編程整理;或者自己完成KEGG注釋;
文件有三大類型:
類型1:keggID
即kegg官網(wǎng)上的ID。
keggID類型又可分為兩種,如下圖:
這兩種格式都是基迪奧RNA測(cè)序結(jié)題報(bào)告中的注釋文件給出的格式,如果是基迪奧客戶,可以不經(jīng)修改直接使用。
例如:以上的第一種格式的文件,位于轉(zhuǎn)錄組de
novo結(jié)題報(bào)告中的文件路徑是:Denovo_Result\4_basic_annotation\KEGG\-***Unigene.fa.blast.kegg.xls;第二種格式的文件,為同樣是位于這個(gè)文件路徑中的這個(gè)文件:***-Unigene.fa.ko.txt
類型2:ncbi-geneID
即從ncbi上得到的基因ID,為一串?dāng)?shù)字組成,如下圖:
如何獲得ncbi-geneID?——如果是模式生物,可以在ensemble的biomart中下載到ensemble ID對(duì)應(yīng)的ncbi ID。具體可查看這個(gè)帖子:http://www.omicshare.com/forum/thread-935-1-1.html
備注:第一列的geneid,沒有特別意義,因每個(gè)項(xiàng)目而不同。如果是模式生物,第一列往往會(huì)使用Ensemble id或NCBI id。
類型3:KO號(hào)
即基因在KEGG中的ID,如下圖:
該類型也是基迪奧RNA測(cè)序結(jié)題報(bào)告中的注釋文件給出的格式。如果是基迪奧客戶,可以不經(jīng)修改直接使用。路徑:denovo結(jié)題報(bào)告中的Denovo_Result\4_basic_annotation\4_database\KEGG_id.xls
有參RNA-seq結(jié)題報(bào)告中的Result\4.ExpressionStat\all.genes.expression.xls
如果沒有在公司測(cè)序,對(duì)于無參考基因組的物種,也可以自行在KEGG官網(wǎng)上的BlastKOALA進(jìn)行注釋:http://www.kegg.jp/,注釋后會(huì)得到基因的KO號(hào)。不過由于KEGG是收費(fèi)的,在線注釋好像最多只能注釋100個(gè)基因,所以,還是找測(cè)序公司幫忙吧!對(duì)于有參考基因組的物種,可以在KEGG官網(wǎng)上的KEGG
ORTHOLOGY上下載到物種全部基因的KO號(hào),但是下載下來的格式不太好用,很難整理成我們需要的格式,如下圖:
準(zhǔn)備好背景基因文件后,要根據(jù)ID類型選擇下面兩個(gè)參數(shù):
1. 背景基因表類型:KO、ncbi-geneID、keggID,根據(jù)上面準(zhǔn)備好的背景基因表的類型選擇即可。
2. 物種類型:這里是要選擇用哪個(gè)數(shù)據(jù)庫來注釋。分了全庫、動(dòng)物庫、植物庫、微生物庫、真菌庫。如果背景基因表的ID類型是ncbi-geneID和keggID,那么選擇相應(yīng)的物種庫或全庫都是可以的,富集出來的結(jié)果相同,但選擇相應(yīng)物種庫的話運(yùn)行時(shí)間則比較短;如果背景基因表的ID類型是KO時(shí),因?yàn)椴煌锓N間相同的KO號(hào)可能會(huì)對(duì)應(yīng)不同的pathway,所以建議選擇相應(yīng)物種庫進(jìn)行注釋。
3. 基因差異表達(dá)差異倍數(shù)表(可加可不加)
可以添加基因差異表達(dá)倍數(shù)表,添加該表后,在得到的通路圖中,就能看到每個(gè)差異基因的上下調(diào)倍數(shù),如下圖:
紅色圓圈圈起來的1.3表示該基因上調(diào)1.3倍。如果不上傳這個(gè)基因差異表達(dá)倍數(shù)表,就無法獲取這些信息哦!
數(shù)據(jù)格式:第一列為基因ID,第二列為差異表達(dá)倍數(shù)的log2值(也就是log2(FC))
上傳完這些文件和選擇好參數(shù)后,點(diǎn)擊“提交”,就等著收菜啦!
三、結(jié)果解讀
1. Pathway富集結(jié)果表(out.htm)
雙擊這個(gè)文件,可以在網(wǎng)頁中打開。
這個(gè)表的含義與GO富集結(jié)果表是類似的:
第一列為pathway名稱;
第二列為差異基因中注釋到該pathway的基因數(shù)目以及占總差異基因數(shù)目的比例,表頭數(shù)字為差異基因總數(shù)目;
第三列為所有背景基因中注釋到該pathway的基因數(shù)目以及占總背景基因數(shù)目的比例,表頭數(shù)字為背景基因總數(shù)目;
第四列為P value,即計(jì)算第二列的百分比與第三列的百分比相比,是否有顯著差異。我們將小于0.05的P value標(biāo)紅顯示;
第五列為多重檢驗(yàn)校正后的Q value,也是把小于0.05的Q value標(biāo)紅顯示。這些pathway是按照P value從小到大排列的,方便老師找差異富集結(jié)果。如在這個(gè)例子中,microRNAs in cancer為在差異基因中富集最顯著的pathway,說明該比較組的差異基因顯著富集于這條代謝通路。
第六列為pathway 的ID(ko 號(hào))
另外,點(diǎn)擊第一列的pathway名稱,可以查看該pathway包含的基因ID,
再點(diǎn)擊這里的pathway名稱,可以連接到KEGG官網(wǎng)上該pathway的通路圖,查看pathway的具體信息:
這個(gè)通路圖直觀地展示了在這個(gè)代謝通路中,哪些基因的表達(dá)量發(fā)生了變化。表達(dá)量下調(diào)的基因顯示為綠色,表達(dá)量上調(diào)的基因顯示為紅色。一半紅一半綠的框表示多個(gè)基因都屬于這個(gè)基因家族,其中一個(gè)基因表達(dá)上調(diào),另一個(gè)基因表達(dá)下調(diào)。
2. 代謝通路圖文件夾(out_map)
這個(gè)文件夾存放的就是每個(gè)pathway的map圖和相應(yīng)的KEGG官網(wǎng)鏈接(如上面所述)。
3. pathway注釋統(tǒng)計(jì)圖(out.path.png/svg)
這個(gè)圖統(tǒng)計(jì)了注釋到pathway A級(jí)、B級(jí)的基因的數(shù)目。圖中縱坐標(biāo)為KEGG的A級(jí)和B級(jí)分類,黑色字體的是A級(jí)分類名,彩色字體的是B級(jí)分類名。橫坐標(biāo)為對(duì)應(yīng)B級(jí)分類上的基因數(shù)目。
4. 差異基因富集pathway表(out.path.xls)
這個(gè)表就是1.pathway富集結(jié)果(網(wǎng)頁版)的內(nèi)容。其中增加了以下信息:
第一列是KEGG的A級(jí)分類名,第二列是KEGG的B級(jí)分類名,那么第三列就是C級(jí)分類,也就是具體的pathway名稱了。后面的都是相同的哈!注意最后一列的KO號(hào)為基因在KEGG中的ID號(hào)。
四、引用
大家如果在數(shù)據(jù)處理的過程中,使用了我們的omicshare tools云工具網(wǎng)站,那么在文章中的method部分可以這樣引用:Pathway enrichment analysis was performed using the OmicShare tools, a free online platform for data analysis (www.omicshare.com/tools)。
五、英文method
KEGG is the major public
pathway-related database.Pathway enrichment analysis identified
significantly enriched metabolicpathways or signal transduction pathways
in DEGs(different expression genes) comparing with the wholegenome
background. Pathway enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。Significantly
enriched pathways in DEGs comparing to the genome background were
defined by hypergeometric test. The calculated p-value was gone through
FDR Correction, taking FDR ≤ 0.05 as a threshold. Pathways meeting this condition were defined as significantly enriched pathways in DEGs.
聯(lián)系客服