免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
NCBI各數(shù)據(jù)庫簡介

隨著ncbi數(shù)據(jù)庫各種資源的涌現(xiàn),NCBI已經(jīng)成為科研工作者必不可少的工具了。那么各位小伙伴們,你能說出NCBI有多少數(shù)據(jù)庫嗎?有哪些實用的工具嗎?不知道的就進(jìn)來看看吧!

PS:本篇文獻(xiàn)轉(zhuǎn)自:http://www.bio1000.com/experiment/fenzi/237847.html。文章寫得比較早,小編為此修改了一些東西!

美國國立生物技術(shù)信息中心(National Center for BiotechnologyInformation),即我們所熟知的NCBI是由美國國立衛(wèi)生研究院(NIH)1988年創(chuàng)辦。創(chuàng)辦NCBI的初衷是為了給分子生物學(xué)家提供一個信息儲存和處理的系統(tǒng)。除了建有GenBank核酸序列數(shù)據(jù)庫(該數(shù)據(jù)庫的數(shù)據(jù)資源來自全球幾大DNA數(shù)據(jù)庫,其中包括日本DNA數(shù)據(jù)庫DDBJ、歐洲分子生物學(xué)實驗室數(shù)據(jù)庫EMBL以及其它幾個知名科研機構(gòu))之外,NCBI還可以提供眾多功能強大的數(shù)據(jù)檢索與分析工具。目前,NCBI提供的資源有Entrez、Entrez Programming Utilities、MyNCBI、PubMed、PubMed Central、EntrezGene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、ElectronicPCR等共計36種功能,而且都可以在NCBI的主頁www.ncbi.nlm.nih.gov上找到相應(yīng)鏈接,其中多半是由BLAST功能發(fā)展而來的。

1 NCBI數(shù)據(jù)庫更新進(jìn)展

 

1.1 PubMed搜索功能的增強

NCBIPubMed進(jìn)行了幾項改進(jìn)工作,改動最大的是搜索界面和摘要瀏覽界面。其中,搜索界面中新增了“Advanced Search”選項(這實際上是對以往“Limits”“Preview/Index”功能的整合),并且增加了一個新的窗口,用戶可以在此窗口下通過論文作者名、論文所屬雜志名稱、論文出版日期等限定條件進(jìn)行搜索。而且,論文作者名論文所屬雜志名稱還設(shè)有文本框自動填充功能?,F(xiàn)在,在PubMed數(shù)據(jù)庫中進(jìn)行文本搜索的同時還可以立即通過兩個內(nèi)容傳感器(content sensors)”進(jìn)行分析。一個內(nèi)容傳感器是根據(jù)作者姓名、所屬雜志名稱或雜志名縮寫、出版日期、卷號或刊號等信息進(jìn)行分析,然后將符合條件的搜索結(jié)果排列到結(jié)果列表的頂端。另一個內(nèi)容傳感器是根據(jù)文章是否與用戶給出的條件,例如是否與某種藥物相關(guān),在NCBI的新增數(shù)據(jù)庫PubMed Clinical Q&A中進(jìn)行搜索,然后給出搜索結(jié)果。

1.2 primer-BLAST分析工具

Primer-BLASThttp://www.ncbi.nlm.nih.gov/tools/primer-blast/)在設(shè)計出引物之后還在某些相應(yīng)數(shù)據(jù)庫中進(jìn)行BLAST搜索,因此可以得到特異性引物,擴增出目的片段。用戶在給出DNA模板的同時還可以限定正向引物或反向引物,這樣,NCBI就只會給出另一條引物。如果用戶給出了模板DNA和兩條引物序列,Primer-BLAST就只會運行BLAST程序,幫助用戶對引物進(jìn)行分析。用戶也可以只給出兩條引物而不給出模板序列,這時Primer-BLAST會通過BLAST程序分析出與這對引物最匹配的模板序列。Primer-BLAST進(jìn)行BLAST搜索的數(shù)據(jù)庫包括RefSeq mRNA、BLAST nr12種模式生物基因組數(shù)據(jù)庫。

1.3 BLAST的改進(jìn)及更新

NCBIBLAST進(jìn)行了全新的改版,推出了最新的web BLAST report。在最新的BLAST比對結(jié)果頁面中,圖形化概要(Graphic Summary)”、具體描述(Descriptions)”以及序列比對(Alignments)”等部分頁面都可以展開和收起。此外,網(wǎng)頁上還提供了結(jié)果輸出格式選項(Formatting)”結(jié)果下載選項(download)”,在下載選項中還新增了CSV格式下載。這樣,讀者可以輕松地將BLAST的比對結(jié)果輸入到表格處理軟件中去。另外,BLAST比對結(jié)果頁面上的“Alignments”部分還提供了每一條命中序列在Entrez GENE中的相關(guān)信息,這些信息包括基因名稱、來源物種以及在PubMed數(shù)據(jù)庫中與該基因有關(guān)條目的數(shù)目等。

“BLAST tree”結(jié)果輸出模式可以測量不同序列間的距離,自動收起亞類信息等?,F(xiàn)在,可以以Newick 格式或Nexus格式下載 BLAST tree結(jié)果,也可以在進(jìn)化樹圖中選擇任一節(jié)點重新構(gòu)樹。最后還要向讀者介紹ncbi blast的一個新網(wǎng)址:URL: blast.ncbi.nlm.nih.gov。NCBI建議讀者都使用這個網(wǎng)址登陸NCBI BLAST,因為該BLAST使用更多的計算機進(jìn)行分析,也具有更強的系統(tǒng)容錯能力。

1.4 Entrez Gene改進(jìn)及更新

基因組注釋工作當(dāng)中有一項重要的工作就是定位基因重疊群序列(contig sequences),即在染色體中找出某個基因的定位。實際上基因組測序工作就是將許多基因重疊序列彼此拼接,最后拼出完整(中間會有一些縫隙)”的基因組圖譜。這項工作可以直接將某個基因與某段基因重疊群序列對應(yīng)起來,但不能直接將該基因與染色體聯(lián)系起來,而這恰恰是生物學(xué)家最感興趣的地方。因此,為了能讓用戶在搜索基因的同時,也能了解到一些該基因在染色體中的定位情況,Entrez Gene推出了新的“Limits”服務(wù),用戶可以使用該服務(wù)在基因組范圍內(nèi)進(jìn)行基因搜索。用戶可以在某個物種染色體的某個區(qū)域里進(jìn)行基因搜索。

Entrez Gene會按以下三種順序?qū)λ阉鞒龅幕蜻M(jìn)行排序:

1. 按照基因名排序。

2. 按照相關(guān)性排序,即按照結(jié)果與用戶搜索所使用的關(guān)鍵詞,例如基因名稱等的匹配程度排序。

3. 按照基因重要性排序,即按照該基因在PubMed、Homologene、Protein ClustersOnlineMendelian Inheritance in Man(OMIM)Bookshelf 中文獻(xiàn)數(shù)量的多少進(jìn)行排序。

2ENTREZ 搜索系統(tǒng)

2.1 Entrez

Entrez數(shù)據(jù)庫是一個整合了多個數(shù)據(jù)庫的綜合檢索系統(tǒng),它包含了35個不同數(shù)據(jù)庫的信息,共收錄有超過350,000,000條記錄(1)。Entrez數(shù)據(jù)庫支持使用簡單的布爾查詢(Boolean queries)方式進(jìn)行文本搜索,可以下載不同格式的數(shù)據(jù)資料,還可以按照生物學(xué)關(guān)系提供與其它相關(guān)記錄的鏈接。這些鏈接給出的都是最簡要的信息,例如會給出一條序列和報道該序列的論文摘要,或者會給出一條蛋白質(zhì)序列的編碼DNA序列或該蛋白質(zhì)的3D結(jié)構(gòu)圖。這種通過計算機運算,即基于比較序列相似性或PubMed中摘要的相似性,所給出的相關(guān)鏈接信息可以以最快的速度提供給用戶大量的相關(guān)信息。還有一種叫做“LinkOut”的功能將這種鏈接功能擴展到了與外部數(shù)據(jù)庫,例如各物種基因組數(shù)據(jù)庫之間的鏈接。Entrez中搜索到的數(shù)據(jù)可以以多種格式輸出,也可以打包下載或逐個下載。

2.2 My NCBI

My NCBI功能是為了方便用戶儲存?zhèn)€人配置信息,例如搜索條件、LinkOut參數(shù)或文件出處等而設(shè)的。用戶登陸自己的My NCBI帳戶后,就可以進(jìn)行保存搜索設(shè)置、管理郵件等操作了。My NCBI中有一種稱作“Collections”的功能可以讓用戶儲存搜索結(jié)果和文獻(xiàn)結(jié)果。BLAST中也設(shè)有類似的功能,這樣用戶就可以使用同一條件進(jìn)行多次比對了。同時往NCBI遞交轉(zhuǎn)錄組、基因組等相關(guān)數(shù)據(jù)都需要注冊,獲得自己的My NCBI賬戶!

3 BLAST比對系統(tǒng)

可與在站點https://blast.ncbi.nlm.nih.gov/Blast.cgi看到除常規(guī)BLAST的各種blast延伸版本。


3.1 BLAST

BLAST默認(rèn)的比對信息數(shù)據(jù)庫包括NCBI中的人類基因組數(shù)據(jù)庫和人類RefSeq數(shù)據(jù)庫。比對之后,BLAST會按照評分高低、序列相似度對結(jié)果進(jìn)行排序,另外BLAST還可以對小鼠數(shù)據(jù)庫以及其它基因組數(shù)據(jù)庫進(jìn)行比對。

蛋白質(zhì)序列的默認(rèn)數(shù)據(jù)庫包括GenBank非冗余數(shù)據(jù)庫、RefSeq、Swiss-ProtPDB、PIRPRF等。此外,還包括這些數(shù)據(jù)庫下的子數(shù)據(jù)庫以及其它一些專利數(shù)據(jù)庫和諸如核酸數(shù)據(jù)庫等環(huán)境樣品數(shù)據(jù)庫(environmental samples)

3.2 BLAST output formats

標(biāo)準(zhǔn)的BLAST輸出格式包括默認(rèn)的配對比對格式(default pairwise alignment)、搜索定位的多序列比對格式(query-anchored multiple sequence alignment formats)、簡單的可解析的Hit Table格式以及按照分類學(xué)給出的報告格式等。一種叫做按照同一性進(jìn)行配對(Pairwise with identities)”的格式能更好地突出目標(biāo)序列與檢索序列之間的差別。而Web BLAST中提供的樹狀瀏覽格式則會按照搜索出的目標(biāo)序列與檢索序列之間的距離不同將這些目標(biāo)序列進(jìn)行聚類,形成一幅樹狀圖來顯示結(jié)果。BLAST比對之后給出的每一種格式的比對結(jié)果都會有一個分值和E值。用戶也可以設(shè)定一個E值的閾值來篩選比對結(jié)果。

3.3 MegaBLAST

MegaBLAST也是一種BLAST程序,不過它主要是用來在非常相似的序列之間(來自同一物種)比對同源性的。使用者通過網(wǎng)頁使用MegaBLAST進(jìn)行批量比對操作,這比使用標(biāo)準(zhǔn)的BLAST程序要快10倍。MegaBLASTNCBI基因組BLAST頁面下是默認(rèn)的搜索工具,借助它能對增長迅速的Trace Archives數(shù)據(jù)庫和標(biāo)準(zhǔn)BLAST使用的數(shù)據(jù)庫進(jìn)行快速檢索。NCBI還為跨物種核酸序列快速搜索提供了Discontiguous MegaBLAST,它使用非重疊群字段匹配算法(noncontiguous word match)來進(jìn)行核酸比對。Discontiguous MegaBLASTblastx等翻譯后比對要快得多,同時它在比較編碼區(qū)時也具有相當(dāng)高的敏感度。

3.4 Genomic BLAST

NCBIMap Viewerhttp://www.ncbi.nlm.nih.gov/mapview/)中還有未已完成測序的物種設(shè)有Genomic BLAST。通過默認(rèn)的Genomic BLAST對某個物種的基因組序列進(jìn)行blast比對,獲得相關(guān)信息。

4 文獻(xiàn)資源

4.1 PubMed數(shù)據(jù)庫(文獻(xiàn)下載的重要來源)

目前,PubMed數(shù)據(jù)庫中收錄有自1860年以來20,400種生命科學(xué)類雜志、刊物刊登過的超過1800萬條的文獻(xiàn)記錄。這些文獻(xiàn)中有980萬條摘要信息,最早的記錄可追溯至19世紀(jì)80年代,其中有870萬條可以檢索到全文。PubMed數(shù)據(jù)庫與其它Entrez數(shù)據(jù)庫都保持著密切聯(lián)系,這樣可以在不同的數(shù)據(jù)庫之間架起一座連接的橋梁。PubMed數(shù)據(jù)庫還會通過計算機自動檢索出包含相近MeSH詞匯、文獻(xiàn)題目以及摘要的相關(guān)文獻(xiàn)信息提供給用戶。默認(rèn)的“AbstractPlus”輸出格式給出了該文獻(xiàn)的摘要信息和五篇與該文獻(xiàn)相關(guān)信息的簡單介紹,這樣用戶就可以獲得更多的有關(guān)資訊了。

4.2 PubMed Central

PubMed Central是一個收錄生命科學(xué)領(lǐng)域同行評審期刊(Peer Reviewed Journals)文獻(xiàn)的數(shù)據(jù)庫,現(xiàn)收錄超過160萬條全文文獻(xiàn),并且僅去年一年就增長了51%。而且,包括《核酸研究》(Nucleic Acids Research)在內(nèi)的480多種期刊會為PubMed Central提供全文文獻(xiàn)。

所有參與PubMed Central的出版商也都必須在文獻(xiàn)出版后12個月之內(nèi)免費為PubMed Central提供全文文獻(xiàn)。由于NIH200847日開始執(zhí)行向公眾免費開放使用的政策,故而PubMed Central也必須免費向公眾開放使用。如此一來,用戶使用Entrez就可以搜索到PubMedPubMed Central中的所有文獻(xiàn)信息了。

4.3 NCBI Bookshelf、NLM Catalog以及Journals database

NCBI Bookshelf通過與作者和出版商合作,收錄了86種在線教科書和生物醫(yī)藥類圖書。NCBI Bookshelf作為獨立于Entrez數(shù)據(jù)庫的一個單獨數(shù)據(jù)庫,它里面的信息也可以通過文本搜索或Entrez數(shù)據(jù)庫,例如PubMedPubMed Central、GeneOMIM中的鏈接搜索到。NCBI Bookshelf中的圖書不是象普通圖書那樣一本一本的存放的,而是按照內(nèi)容將它們分成了230,000個不同的部分、章節(jié)進(jìn)行儲存的。用戶瀏覽其中一個內(nèi)容的時候也可以跳到該書的其它部分或者直接搜索這本書中的特定內(nèi)容進(jìn)行閱讀。

NLM Catalog為藏書超過130萬冊的美國國立衛(wèi)生圖書館(NLM)記錄設(shè)立目錄信息,包括雜志、圖書、手稿、計算機軟件、錄音文件和其它電子資源。每一條記錄都可鏈接到NLM LocatorPlus和具有相近題目或MeSH詞匯的相關(guān)文件目錄信息。

Journals database(期刊數(shù)據(jù)庫)包含了每一個Entrez數(shù)據(jù)庫中的所有期刊信息。目前共收錄有超過22,000條記錄,期刊數(shù)據(jù)庫為每一份期刊都建立了ISO刊名縮寫索引、出版日期索引和NLM catalog鏈接索引以及Entrez中引用該期刊中文獻(xiàn)的索引。

5 基因序列信息以及相關(guān)序列信息

5.1 數(shù)據(jù)庫

5.1.1  Gene

Gene數(shù)據(jù)庫為用戶提供基因序列注釋和檢索服務(wù),還會鏈接到NCBIMap Viewer、Evidence Viewer、ModelMaker、BLAST Link (Blink)protein domains from the Conserved DomainDatabase(CDD)等數(shù)據(jù)庫資源以及其它與基因相關(guān)的資源。Entrez Gene數(shù)據(jù)庫收錄了來自5300多個物種的430萬條基因記錄。而且,NCBI除了擁有自己的注釋工作人員之外,還在不斷從許多其它國際合作組織那里獲取新的基因注釋記錄信息。

Gene數(shù)據(jù)庫與PubMed中最新引文之間的鏈接是由基因注釋人員負(fù)責(zé)維護(hù)的,這項功能也被稱作GeneRIF。完整的Entrez Gene數(shù)據(jù)集以及物種特異性的數(shù)據(jù)亞集可以在NCBI FTP站點中的NCBI ASN.1中找到。一種可以將NCBI ASN.1格式轉(zhuǎn)化成XML格式的名為ene2xml的軟件也可以到ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/gene2xml下載。

5.1.2 UniGeneEST

UniGene從屬于GenBank的一部分,專門收集轉(zhuǎn)錄體序列數(shù)據(jù),包括EST序列和非冗余序列,每一條UniGene記錄都代表一個潛在的基因。UniGene收錄了GenBank中來自所有物種的EST序列。UniGene數(shù)據(jù)庫每周都會更新EST信息,每兩個月會更新序列信息。

5.1.3 HomoloGene數(shù)據(jù)庫

HomoloGene數(shù)據(jù)庫是一個在21種完全測序的真核生物基因組中自動檢索同源基因的系統(tǒng),包括直系同源與旁系同源(統(tǒng)計信息見http://www.ncbi.nlm.nih.gov/homologene/statistics/)。HomoloGene的結(jié)果報告包括基因同源性和來自OMIM、小鼠基因組信息學(xué)(Mouse Genome Informatics, MGI)、斑馬魚信息網(wǎng)絡(luò)(Zebrafish Information Network, ZFIN)、酵母基因組數(shù)據(jù)庫(Saccharomyces Genome Database, SGD)、直系同源基因簇(Clusters of Orthologous Groups,COG)和果蠅數(shù)據(jù)庫(FlyBase)的基因表型信息。HomoloGene下載功能能下載HomoloGene中的轉(zhuǎn)錄體、蛋白質(zhì)和基因組序列信息,還能下載基因組中特定基因的上游和下游序列。

5.1.4 Reference Sequences

Reference Sequences(RefSeq)數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/refseq/)是一個收錄注釋過的非冗余轉(zhuǎn)錄體、蛋白質(zhì)和基因組序列數(shù)據(jù)庫。至今已收集了65,964,245條蛋白序列,涉及60,892個物種。用戶可以通過Entrez核酸和蛋白質(zhì)數(shù)據(jù)庫搜索到RefSeq序列,也可以通過NCBI FTP站點(ftp://ftp.ncbi.nlm.nih.gov/refseq/release/)進(jìn)入RefSeq數(shù)據(jù)庫。

5.1.5 GenBank和其它數(shù)據(jù)庫來源的序列

用戶可以通過三個Entrez數(shù)據(jù)庫——NucleotideESTGenome Survey Sequence(GSS)(這三個數(shù)據(jù)庫在E-Utilities中分別稱作nuccore、nucestnucgss)搜索到GenBank中的序列。Entrez Nucleotide數(shù)據(jù)庫含有除了收錄之外的GenBank中所有的序列,它還收錄有全基因組鳥槍法測序序列、第三方注釋序列(Third Party Annotation sequences)Entrez結(jié)構(gòu)數(shù)據(jù)庫中的序列。對這些記錄中編碼序列概念上的翻譯信息都收錄在了Entrez蛋白質(zhì)數(shù)據(jù)庫中。EST數(shù)據(jù)庫收錄了GenBank EST中的所有數(shù)據(jù)和沒有生物學(xué)注釋信息的單分子識別首次通過(first-pass single-read)”cDNA序列。同樣,GenBank中的GSS數(shù)據(jù)庫也收錄了沒有生物學(xué)注釋信息的單分子識別首次通過的基因組序列。

5.2 分析工具

5.2.1 ORF Finder、SpideySplign

NCBI提供了幾種分析工具可以幫助用戶在基因組內(nèi)發(fā)現(xiàn)編碼序列。Open Reading Frame(ORF)Finder程序可以將一段DNA序列按照6種進(jìn)行翻譯,然后返回某一段DNA序列中可能的ORF

Spidey工具將一組真核生物的mRNA序列與一個基因組序列進(jìn)行比對,使用4種物種的RNA剪切模型(脊椎動物、果蠅、秀麗隱桿線蟲和植物)來預(yù)測RNA剪切位點。Splign是一種通過比對cDNA和基因組序列來發(fā)現(xiàn)剪切位點的工具,它可以在測序出現(xiàn)錯誤的情況下使用,還可以進(jìn)行跨物種的比對。Splign使用了一種Needleman-Wunsch算法,與區(qū)域化算法(compartmentization algorithm)一起使用能發(fā)現(xiàn)可能的基因位點。用戶可以在Splign網(wǎng)頁上下載單獨為大批量分析而專門設(shè)計的Splign工具使用。

5.2.2 Electronic PCR(e-PCR)

反向e-PCRhttp://www.ncbi.nlm.nih.gov/tools/epcr/)。用戶設(shè)計完引物后,可以用反向e-PCR搜索該物種基因組數(shù)據(jù)庫和轉(zhuǎn)錄體數(shù)據(jù)庫來預(yù)測基因組結(jié)合位點、擴增片段大小和引物特異性,在線版的物種很少,用戶可以自己下載軟件,然后用自己的基因組。

5.2.3 Conserved CDS database(CCDS https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)

不同的科研小組使用他們各自的方法研究同一物種基因組時,對于基因組中的基因定位可能會得到相似但不完全相同的結(jié)論。這樣,就會對其它的科研工作者造成困擾。在所有的模式生物中,目前對人類和小鼠的基因組序列研究得最多也最透徹,因此它們最適合用來作為標(biāo)準(zhǔn)的(consensus)”基因注釋的實驗材料

CCDS數(shù)據(jù)庫計劃(www.ncbi.nlm.nih.gov/CCDS/)就是由NCBI、歐洲生物信息學(xué)研究院(European Bioinformatics Institute)、韋爾科姆基金會桑格研究院(Wellcome Trust Sanger Institute)和加州大學(xué)圣克魯茲分校(UCSC)共同合作建立的標(biāo)準(zhǔn)的有關(guān)人類和小鼠基因蛋白質(zhì)編碼區(qū)的數(shù)據(jù)庫,該數(shù)據(jù)庫會不斷更新來保持其高水準(zhǔn)。用戶可以在CCDS的網(wǎng)頁上使用基因名或序列ID進(jìn)行搜索,還可以鏈接到Entrez Gene數(shù)據(jù)庫、歷史記錄信息、轉(zhuǎn)錄體和蛋白質(zhì)序列、Map Viewer、Ensemble Genome Browser、UCSCGenome Browser和桑格研究院的Vega Browser。用戶可以到ftp.ncbi.nlm.nih.gov/pub/CCDS/下載CCDS序列數(shù)據(jù)。

6 基因組信息

6.1 數(shù)據(jù)庫

6.1.1 Genome

Genome數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/genome/)收錄真核生物完整基因組數(shù)據(jù)(包括基因組組裝數(shù)據(jù)及注釋數(shù)據(jù))以及動物、綠色植物和真菌的染色體信息。而對于更高等的真核生物基因組,Entrez Genome數(shù)據(jù)庫會直接鏈接到NCBI Map Viewer。原核生物、病毒和真核生物細(xì)胞器的基因組則可以鏈接到專門的頁面和BLAST頁面。另外還專門設(shè)有植物基因組頁面(Plant Genomes Central Web page),在上面可以查詢到完整的植物基因組測序計劃、植物基因組BLAST或者Map Viewer等信息。

6.1.2 NCBI Trace Archives

Trace Archives數(shù)據(jù)庫儲存了由凝膠/毛細(xì)血管測序平臺(例如Applied Biosystems ABI 3730)測序(一代測序)獲得的序列數(shù)據(jù)。

6.1.3 Short Read Archive

Short Read Archive(SRA)數(shù)據(jù)庫里收錄的數(shù)據(jù)都是由新一代測序儀(例如Roche-454、Illumina Genome AnalyzerAppliedBiosystems SOLiD System platforms)測序產(chǎn)生的基因組、轉(zhuǎn)錄組等原始測序數(shù)據(jù)信息。SRA的出現(xiàn)為大家進(jìn)行數(shù)據(jù)挖掘提供了更多的機會。

6.2 分析工具及資源

6.2.1 Map Viewer

NCBIMap Viewer顯示了基因組集合、遺傳標(biāo)記及物理標(biāo)記以及相關(guān)注釋信息和比對信息等其它分析結(jié)果。Map Viewer的主頁www.ncbi.nlm.nih.gov/mapview/提供了包括人類、小鼠和大鼠(Rattus norvegicus)在內(nèi)的超過100種物種的基因組數(shù)據(jù)。用戶可以看到的圖譜將根據(jù)物種的不同可能會有所不同,或許包括細(xì)胞遺傳圖譜(cytogenetic maps)、物理圖譜(physical maps)和各種不同的序列圖譜。源自同一物種的多個基因組圖譜可以在同一個頁面中顯示。

6.2.2 Model Maker以及Evidence Viewer

Model Maker(MM)是用來構(gòu)建轉(zhuǎn)錄模型的一種工具,它將通過由從頭預(yù)測法(ab initio predictions)預(yù)測出來的外顯子以及通過與GenBank中的轉(zhuǎn)錄體數(shù)據(jù)庫ESTRefSeq比對之后得來的外顯子,與NCBI的人類基因組數(shù)據(jù)庫結(jié)合在一起來構(gòu)建轉(zhuǎn)錄模型。

Evidence Viewer(EV)則將所有能支持基因注釋信息正確性的序列信息證據(jù)進(jìn)行了歸納總結(jié),它采用的是將RefSeq、ESTGenBank中的轉(zhuǎn)錄體信息與基因組重疊群進(jìn)行比對的方法。EV顯示了每一個外顯子的詳細(xì)比對結(jié)果,并突出顯示了其中不匹配的部分。

6.2.3 Entrez cancer Chromosomes

Entrez cancer Chromosomes (Entrez癌癥染色體)數(shù)據(jù)庫包含了與人類癌癥有關(guān)的人類染色體畸變信息,例如基因缺失或轉(zhuǎn)位等。Entrez癌癥染色體數(shù)據(jù)庫由三個部分組成,即NCI/NCBI SKY(SpectralKaryotyping)/M-FISH(Multiplex-FISH)CGH(Comparative Genomic Hybridization)數(shù)據(jù)庫;美國國立癌癥研究院(NCI)為癌癥染色體畸變信息設(shè)立的Mitelman數(shù)據(jù)庫以及NCI為再發(fā)癌癥染色體畸變設(shè)立的數(shù)據(jù)庫。每一個畸變都以圖形的形式表現(xiàn)出來,并附之相關(guān)臨床病例信息和文獻(xiàn)信息。

6.2.4 TaxPlot、GenePlotgMap

TaxPlot可以同時給出來自兩個物種蛋白質(zhì)之間的相似性以及原核生物或真核生物參考物種的完整基因組信息。與其相關(guān)的另一個工具GenePlot則可以給出一對完整微生物基因組內(nèi)的片段,經(jīng)可視化的缺失、轉(zhuǎn)位或倒位操作之后,其編碼蛋白質(zhì)之間的相似性。gMap工具將預(yù)先計算過的微生物全基因組比較結(jié)果與BLAST比較結(jié)果以及核酸序列相似的基因組聚類結(jié)果結(jié)合在一起進(jìn)行比對,然后將相似的片段以圖形化的方式表現(xiàn)出來。

6.2.5 Influenza Genome SequencingProject(IGSP)

IGSP(流感基因組測序計劃)為研究流感的科研工作者提供了越來越多的序列資料,他們可以借此找出流感病毒致病的遺傳性狀。到目前為止,該計劃已經(jīng)得到了超過33,000條流感病毒序列。NCBI的流感病毒資源也和IGSP之間設(shè)有鏈接,還可以通過PubMed找到所有最新的有關(guān)流感病毒方面的文獻(xiàn)和各種在線分析工具及數(shù)據(jù)庫資源。這些數(shù)據(jù)庫包括NCBI的流感病毒序列數(shù)據(jù)庫(Influenza Virus Sequence Database),該數(shù)據(jù)庫收錄有GenBankRefSeq中超過70,000條流感病毒的序列。科研人員借助流感病毒資源提供的各種工具能對超過83,000條流感蛋白質(zhì)序列進(jìn)行分析。Entrez的生物學(xué)數(shù)據(jù)庫中還收錄有超過100條流感病毒蛋白質(zhì)結(jié)構(gòu)信息和350多條有關(guān)流感病毒種群研究的資料。還有一種在線流感病毒基因組注釋工具能幫助科研工作者們分析新發(fā)現(xiàn)的流感病毒序列并進(jìn)行注釋,然后將結(jié)果通過tbl2asn等上傳工具遞交給NCBIGenBank數(shù)據(jù)庫。

6.2.6 Entrez Protein Clusters

Entrez Protein Clusters(Entrez蛋白質(zhì)聚類數(shù)據(jù)庫)收錄了由完整的原核生物基因組和葉綠體基因組編碼的28萬多條已確認(rèn)的RefSeq蛋白質(zhì)序列,并將這些序列按照分類學(xué)的規(guī)則進(jìn)行了歸類(聚類)NCBI可以將這些蛋白質(zhì)聚類信息用于基因組范圍內(nèi)的比對,也可以用于簡化的BLAST——簡單的微生物蛋白BLAST(Concise Microbial Protein BLAST,www.ncbi.nlm.nih.gov/genomes/prokhits.cgi)比對之用。蛋白聚類數(shù)據(jù)庫還包括注釋信息、出版信息、結(jié)構(gòu)域和結(jié)構(gòu)信息、相關(guān)庫外鏈接和分析工具(例如多序列比對工具和系統(tǒng)發(fā)生分析工具)信息等。蛋白質(zhì)聚類數(shù)據(jù)庫還通過GenomeProtMap(http://www.ncbi.nlm.nih.gov/sutils/protmap.cgi)與其它基因組數(shù)據(jù)庫有鏈接。

7 基因型和表型信息

7.1 基因型和表型數(shù)據(jù)庫

認(rèn)識遺傳和環(huán)境因素與人類疾病之間的關(guān)系,對于幫助我們提高疾病診治水平來說具有非常重要的意義。大范圍的基因型研究能為基因組相關(guān)調(diào)查、醫(yī)療測序、分子診斷以及發(fā)現(xiàn)基因型和非臨床特性之間的關(guān)系等研究提供數(shù)據(jù)資料。基因型和表型數(shù)據(jù)庫(dbGaP;www.ncbi.nlm.nih.gov/sites/entrez?db=gap)Entrez系統(tǒng)的一部分,它負(fù)責(zé)管理與可見特征(表型)相關(guān)的遺傳特征(基因型)。該數(shù)據(jù)庫收錄的資料來自由NIH資助的全基因組關(guān)聯(lián)分析(genome-wide association study, GWAS)結(jié)果。(詳見grants.nih.gov/grants/gwas/index.htm)目前dbGaP數(shù)據(jù)庫收錄的數(shù)據(jù)來自25個研究項目,用戶可以通過疾病名稱或基因名稱進(jìn)行搜索、瀏覽。為了保證研究項目的機密性,dbGaP數(shù)據(jù)庫只接受去識別(de-identified)”的數(shù)據(jù),同時還要求使用個人資料(individual-level)的研究者接受審核。不過,用戶可以不受任何限制的瀏覽研究文件、操作流程和項目問卷調(diào)查等資料。

7.2 dbSNP

dbSNP數(shù)據(jù)庫(單核苷酸多態(tài)性數(shù)據(jù)庫)收錄的是單核苷酸多態(tài)性信息,例如單個堿基的替換、缺失或插入信息。共收錄有將近1800萬條人類SNP信息和3300萬條其它各物種的SNP信息。dbSNP數(shù)據(jù)庫還收錄確認(rèn)信息、種群特異性等位基因頻率信息(population-specific allele frequencies)和個體基因型信息。所有這些信息都可以在dbSNP數(shù)據(jù)庫的FTP站點中找到。

7.3 供常規(guī)臨床應(yīng)用的數(shù)據(jù)庫

7.3.1 dbMHC

dbMHC數(shù)據(jù)庫是有關(guān)主要組織相容性復(fù)合體(MHC)的數(shù)據(jù)庫。它收錄了各種MHC等位基因的變異信息,這些信息與器官移植以及個體對感染性疾病的易感性有非常重要的關(guān)系。dbMHC數(shù)據(jù)庫收錄了1000多條MHC等位基因序列以及這些等位基因在人群中出現(xiàn)的頻率,還收錄了人白細(xì)胞抗原(HLA)的基因型與全世界臨床造血干細(xì)胞移植成功率之間的信息。

7.3.2 dbLRC

dbLRC數(shù)據(jù)庫則是全面收錄白細(xì)胞受體復(fù)合物(LRC)等位基因信息,主要關(guān)注LRC中的KIR基因。

7.3.3 dbRBC

dbRBC數(shù)據(jù)庫收錄的是與紅細(xì)胞抗原或血型有關(guān)的基因及其序列信息。該數(shù)據(jù)庫是將血型抗原基因突變數(shù)據(jù)庫(Blood Group Antigen Gene Mutation Database)中的資源與NCBI中的相關(guān)資源整合到一起組建而成的。dbRBC數(shù)據(jù)庫里收錄的每一個基因都有詳細(xì)的信息,還有國際輸血學(xué)會(ISBT)通過等位基因命名法對血型等位基因的命名。上述這三個數(shù)據(jù)庫都帶有多序列比對工具、分析純合型或雜合型序列的工具以及DNA探針比對工具。

7.4 OMIM

NCBIOMIMEntrez的一個組成部分,主要收錄人類基因和遺傳病相關(guān)信息,它由約翰霍普金斯大學(xué)(Johns Hopkins University)VictorA. McKusick小組負(fù)責(zé)維護(hù)。OMIM數(shù)據(jù)庫收錄了疾病表型與基因的相關(guān)信息,包括對該遺傳病詳細(xì)的描述、基因名稱、遺傳方式、基因定位、基因多態(tài)性以及詳細(xì)的相關(guān)參考文獻(xiàn)信息。OMIM數(shù)據(jù)庫共有將近20,000條記錄,涵蓋超過12,500個已知的基因位點數(shù)據(jù)和表型數(shù)據(jù)。這些記錄還與許多其它重要資源,例如位點特異性數(shù)據(jù)庫(locusspecific databases)GeneTests(www.genetests.org)之間設(shè)有鏈接。

7.5 OMIA

OMIA(動物在線孟德爾遺傳)數(shù)據(jù)庫是一個有關(guān)動物(除了人類和小鼠)基因和遺傳病的數(shù)據(jù)庫,由澳大利亞悉尼大學(xué)(University of Sydney, Australia)FrankNicholas教授等人建立。該數(shù)據(jù)庫收錄了超過2500條記錄,其中包括文本信息、參考資料信息以及與OMIM、PubMedEntrez Gene這些數(shù)據(jù)庫之間的鏈接。

8 基因表達(dá)

8.1 Gene Expression Omnibus(GEO)

GEO(基因表達(dá)精選集)是一個儲存高通量功能基因組學(xué)數(shù)據(jù)的數(shù)據(jù)庫,這些高通量功能基因組學(xué)數(shù)據(jù)來自芯片和二代測序得到的試驗數(shù)據(jù)。GEO除了收錄基因表達(dá)數(shù)據(jù)之外還收錄其它數(shù)據(jù),例如基因組拷貝數(shù)變異數(shù)據(jù)、基因組-蛋白相互作用數(shù)據(jù)以及基因組甲基化數(shù)據(jù)等。該數(shù)據(jù)庫既接受原始數(shù)據(jù),也接受經(jīng)過處理的數(shù)據(jù)。GEO數(shù)據(jù)庫被分為兩個部分收錄在Entrez中,分別是GEO Profiles數(shù)據(jù)庫(它負(fù)責(zé)收錄一個基因在一次試驗中的定量基因表達(dá)數(shù)據(jù))GEO數(shù)據(jù)庫(收錄整個試驗的數(shù)據(jù))

8.2 GENSAT

GENSAT是有關(guān)小鼠中樞神經(jīng)系統(tǒng)基因表達(dá)譜的數(shù)據(jù)庫,這些數(shù)據(jù)是由美國神經(jīng)障礙和中風(fēng)研究院(National Institute of NeurologicalDisorders and Stroke)提供的。GENSAT儲存了小鼠大腦的組織切片圖像,這些組織切片中都含有各種標(biāo)簽,例如增強的綠色熒光蛋白標(biāo)簽等,這樣可以根據(jù)標(biāo)簽的熒光強度來判斷基因的表達(dá)量。GENSAT共收錄了8萬多幅圖像資料,還提供搜索功能、資料下載功能、縮放功能和比對功能。

8.3 Entrez Probe

NCBI Probe database(探針數(shù)據(jù)庫)是一個公共的核酸試劑數(shù)據(jù)庫,它可以提供試劑信息、銷售廠家信息、探針有效性信息,還可以計算序列相似性。該數(shù)據(jù)庫儲存了960萬條探針序列,這些探針可以分為31大類,包括用于基因分型的探針、發(fā)現(xiàn)SNP的探針、基因表達(dá)探針、基因沉默探針、基因測序探針等等。

9 分子結(jié)構(gòu)和蛋白質(zhì)組學(xué)

9.1 MMDB

NCBIMMDB數(shù)據(jù)庫收錄了Protein Data Bank數(shù)據(jù)庫中經(jīng)試驗驗證過的數(shù)據(jù)信息,包括蛋白質(zhì)結(jié)構(gòu)域注釋信息、與相關(guān)文獻(xiàn)的鏈接信息、蛋白質(zhì)和核酸序列信息、PDB異基因(PDB heterogens)信息、CDD中的保守結(jié)構(gòu)域信息和經(jīng)VAST算法計算出的結(jié)構(gòu)鄰域(structural neighbors)信息。用戶可以通過在MMDB數(shù)據(jù)庫中進(jìn)行文本搜索得到相關(guān)的簡要結(jié)構(gòu)信息圖,還能鏈接到NCBI結(jié)構(gòu)和在比對瀏覽器Cn3D中查看搜索結(jié)果。

9.2 分析工具

Blink工具能顯示預(yù)先計算(pre-computed)出的BLAST比對結(jié)果,即與Entrez數(shù)據(jù)庫中每一條蛋白質(zhì)序列相似的序列。用戶可以限定一些參數(shù),例如物種類別或被比對的數(shù)據(jù)庫等來對結(jié)果進(jìn)行篩選。

9.2.1 開放式質(zhì)譜搜索算法

開放式質(zhì)譜搜索算法(Open Mass Spectrometry Search Algorithm,OMSSA)是一種與BLAST類似的算法,利用和BLASTE值一樣的方法在已知的蛋白質(zhì)序列數(shù)據(jù)庫(非冗余數(shù)據(jù)庫或refseq數(shù)據(jù)庫)中找出與待測序列最相近的已知序列。在OMMSA的網(wǎng)頁上可以一次分析2000多個樣品。用戶還可以到ubchem.ncbi.nlm.nih.gov/omssa/download.htm.站點下載可進(jìn)行更大量分析的OMSSA軟件。

9.2.2 HIV-1/Human Protein InteractionDatabase

美國國立過敏和傳染病研究所艾滋病部(The Division of Acquired Immuno DeficiencySyndrome of The National Institute of Allergy and Infectious)與南方研究院(Southern Research Institute)NCBI合作,建立了HIV-1/Human Protein InteractionDatabase(HIV-1/人類蛋白相互作用數(shù)據(jù)庫),用來記錄HIV-1病毒蛋白和人類宿主細(xì)胞蛋白之間的相互作用。在www.ncbi.nlm.nih.gov/RefSeq/HIVInteractions/index.html網(wǎng)頁上用戶可以找到蛋白質(zhì)在RefSeq中的檢索號、Entrez Gene ID號、相互作用的氨基酸位點、對相互作用的簡單描述、關(guān)鍵詞和PubMed ID號等信息。

10PubChem

PubChemNIH設(shè)立分子圖書館以及開展研究小分子化學(xué)、結(jié)構(gòu)和生物學(xué)特性工作的基礎(chǔ)。三個Entrez數(shù)據(jù)庫——PCSubstancePCCompoundPCBioAssay收錄了所有的相關(guān)信息。這三個數(shù)據(jù)庫共收錄有將近4100萬條小分子記錄和1900萬種結(jié)構(gòu)。其中750,000條記錄都在PubChem中收錄的1200種生物檢測方法中的至少一種生物檢測試驗中具有活性。PubChem不僅與PubMedPMCEntrez數(shù)據(jù)庫有鏈接,還與Entrez StructureEntrezProtein有鏈接,這樣就將基因組水平的生物大分子與細(xì)胞代謝水平的小分子聯(lián)系起來了。用戶可以使用文本在PubChem數(shù)據(jù)庫中進(jìn)行搜索,也可以使用各種格式的化學(xué)分子式或化學(xué)結(jié)構(gòu)進(jìn)行搜索。

本文總結(jié)了BLAST序列相似性搜索程序、ENTREZ 搜索系統(tǒng)、PubMed搜索功能、GenBank和其它數(shù)據(jù)庫來源的序列、分析工具及資源、基因型和表型信息數(shù)據(jù)庫、Gene Expression Omnibus(GEO)數(shù)據(jù)庫、分子結(jié)構(gòu)和蛋白質(zhì)組學(xué)、PubChemNCBI數(shù)據(jù)中資源的功能和使用方法。

 


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一步一步教你使用NCBI數(shù)據(jù)庫資源
NCBI的檢索
生物數(shù)據(jù)庫介紹
NCBI參考序列(RefSeq)常見問題回答 | Public Library of Bioinformatics
NCBI資源介紹及使用手冊
NCBI的用法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服