KEGG,(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書)。是一個整合了基因組、化學和系統(tǒng)功能信息的數(shù)據(jù)庫,旨在揭示生命現(xiàn)象的遺傳與化學藍圖。它是由人工創(chuàng)建的一個知識庫,是基于使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統(tǒng)功能知識庫。另外,KEGG具有強大的圖形功能,它利用圖形來介紹眾多的代謝途徑以及各途徑之間的關系。
通過與世界上其他一些大型生物信息學數(shù)據(jù)庫的連接,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其他序列比較、圖形比較和通路計算的工具。
KEGG是一個綜合數(shù)據(jù)庫,它們大致分為系統(tǒng)信息、基因組信息和化學信息三大類。進一步可細分為16個主要的數(shù)據(jù)庫??梢酝ㄟ^不同的顏色編碼來區(qū)分。
KEGG三類數(shù)據(jù)庫之間的關系:
KEGG對象標識符。數(shù)據(jù)庫中包含各樣的數(shù)據(jù)對象,這些數(shù)據(jù)對象是為了用來對生物系統(tǒng)進行計算機模擬的。因此,各個數(shù)據(jù)庫中的數(shù)據(jù)記錄都被稱為KEGG對象。這些
KEGG PATHWAY Database(代謝通路數(shù)據(jù)庫)
KEGG GENES Database(基因數(shù)據(jù)庫)
KEGG LIGAND Database(配體數(shù)據(jù)庫)
KEGG PATHWAY數(shù)據(jù)庫是一個手工畫的代謝通路的集合,包含以下幾方面的分子間相互作用和反應網(wǎng)絡:PATHWAY的五種類型:map 對于通路在中,一個表示一個基因、這個基因編碼的酶及這個酶參加的kec -Reference pathway (EC):ec通路中的點只表示相關的酶
):Reaction通路中的點只表示改點參與的某個反應、反應物對及反應類型
對于KpathwayKEGG BRITE是一個層級分類的數(shù)據(jù)庫,包含生物系統(tǒng)各個方面的知識。相對于KEGGPATHWAY僅限于分子間相互作用和反應,KEGGBRITE包含了許多不同的關系類型。例如,可以查詢酶和底物之間的關系,也可以查詢某種酶的同源基因。
四種的模塊:
(糖酵解,與三碳化合物相關的核心模塊)
(寡糖轉(zhuǎn)移酶)
(氨?;?tRNA合酶,原核生物)
(腸出血性大腸桿菌致病性特征,志賀毒素)
KEGG參考通路圖,BRITE功能層次以及KEGG模塊都是以一種廣泛的方式來表示,都可以用于所有物種。而直系同源與旁系同源:
(1).在進化上起源于一個始祖基因并垂直傳遞的同源基因;
(3).功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換;
(5).組織特異性與亞細胞分布相似。
系同源paralogy基因是指同一基因組或同系物種的基因組中,由于始祖基因的加倍而的幾個同源基因與旁系的共性是同源,都源于各自的始祖基因區(qū)別在于:在進化起源上,直系同源是強調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的;在功能上,直系同源要求功能高度相似,而旁系同源在定義上,可能相似,但也可能并不相似盡管結(jié)構(gòu)上具一定程度的相似,甚至于沒有功能如基因家族中的假基因。
ko編號表示一個通路,這個通路是不分物種的,相當于所有物種的這一通路的并集。
K編號表示一個基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統(tǒng)稱。
KEGG GENOME Database:中了中物種eukaryotes, bacteria, 153 ),EST。
1.KEGG GENES是所有已知全基因組序列的基因目錄的集合。這些全基因組信息主要參考可得到的公共數(shù)據(jù)庫,尤其是NCBI RefSeq數(shù)據(jù)庫。這些基因從屬于SSDB(SequenceSimilarity Database)并通過KOALA工具進行計算和KO編號的分配(基因注釋)。
3.KEGG EGENES是一個包含大部分植物的EST數(shù)據(jù)集的補充基因目錄,以上數(shù)據(jù)都隨著GENES被當做一個參考數(shù)據(jù)集的使用被KAAS自動分配上KO編號。
5.VGENES表示病毒基因目錄,還沒有全部整合到KEGG系統(tǒng)中。
1.KEGG SSDB(序列相似性數(shù)據(jù)庫)包括全基因組中的所有蛋白編碼基因的氨基酸序列相似性的信息,這些信息是從KEGG中的GENES數(shù)據(jù)庫計算得到的。所有可能的成對基因組比較由SSEARCH程序來執(zhí)行,并且Smith-Waterman相似性分數(shù)大于或等于100的基因?qū)贿x入SSDB數(shù)據(jù)庫,數(shù)據(jù)庫中還包括最佳匹配(besthits)以及雙向最佳匹配(best-besthits)序列的信息。
<span microsoft="" yahei";="">2.SSDB是一個如此巨大的加權(quán)的有向圖,這使得該數(shù)據(jù)庫可以被用于查詢直系同源和旁系同源基因,還可以在額外考慮染色體上位置正確性的情況下查詢保守的基因簇。
轉(zhuǎn)載本文請聯(lián)系原作者獲取授權(quán),同時請注明本文來自龐哲科學網(wǎng)博客。
鏈接地址:http://blog.sciencenet.cn/blog-3307279-1057291.html