通知,本周六的meta直播順延至下周。周二晚有Y叔的直播沙龍,點(diǎn)這里參加。
上周六,趙老師和大家分享的是免編程學(xué)生信--尋找差異分子案例實(shí)踐--富集分析,并現(xiàn)場(chǎng)解答群友提出的相關(guān)提問(wèn)(qq群463367325)。
菜鳥(niǎo)不會(huì)編程,clusterProfiler不能速成,著急要做富集分析怎么辦?上周六的沙龍直播解決了這個(gè)問(wèn)題,趙老師操作演示了怎樣用免編程的工具David做富集分析,并現(xiàn)場(chǎng)解答群友提出的相關(guān)提問(wèn)(qq群463367325),零基礎(chǔ)的菜鳥(niǎo)入門(mén)必看~
(David太low想用R做富集分析?點(diǎn)這里看clusterProfiler。開(kāi)發(fā)者Y叔明晚直播,點(diǎn)這里參加。)
(*  ̄3)(ε ̄ *)感謝可愛(ài)的熱心群友和小編編~ 盡管視頻制作出了一點(diǎn)小意外,在大家的努力下視頻可以照常領(lǐng)取。
發(fā)送 GSNX 到后臺(tái),馬上得全套現(xiàn)場(chǎng)課程+答疑視頻,開(kāi)始小白的歷練之路吧~
最近提過(guò)問(wèn)題但錯(cuò)過(guò)現(xiàn)場(chǎng)答疑的同志,仔細(xì)看推送中有沒(méi)有自己的提問(wèn),領(lǐng)到錄像好好學(xué)習(xí)……
要是有追問(wèn),可以組織語(yǔ)言在群里求助(提問(wèn)前請(qǐng)仔細(xì)閱讀這篇求助得回應(yīng)秘訣),如果沒(méi)有解答,周六統(tǒng)一直播回答。點(diǎn)這里查看優(yōu)質(zhì)提問(wèn)的示例~
發(fā)送到有道云筆記的優(yōu)質(zhì)提問(wèn)將獲得專(zhuān)場(chǎng)解答,將問(wèn)題寫(xiě)在有道云筆記里,進(jìn)qq群463367325,把有道云筆記鏈接私信發(fā)給小覓0號(hào)(點(diǎn)這里看歐陽(yáng)同學(xué)整理的有道云使用心得)。
問(wèn)答版與現(xiàn)場(chǎng)答疑內(nèi)容僅供參考,并非標(biāo)準(zhǔn)答案,歡迎大家深入思考,提出不同的見(jiàn)解?;仡櫷莆牡膬?nèi)容排序即現(xiàn)場(chǎng)直播課程順序,先領(lǐng)視頻,再對(duì)照回顧推文看視頻,學(xué)習(xí)效果好:)
趙老師的生信沙龍問(wèn)答版
問(wèn):蛋白質(zhì)序列分析里面,有抗原表位預(yù)測(cè)分析。有什么好的方法?
如果用Bcepred或者Protean程序或者服務(wù)器進(jìn)行分析怎么解讀預(yù)測(cè)的結(jié)果?、
這里我以HCV 1b型的core蛋白為例。在NCBI進(jìn)行蛋白質(zhì)搜索HCV 1b的core蛋白。
截圖如下:
搜索
選擇紅框內(nèi)
選擇Protein
在檢索框內(nèi)輸入下面的檢索式的后面部分(AND之后的部分)
檢索式:txid31647[Organism:noexp] AND core NOT partial
這里我們得到264條命中條目,我怎么知道他們的區(qū)別呢?怎樣才能選出我需要分析的那幾個(gè)病毒株的蛋白?
這里我按照GI號(hào)得到想要的病毒株的蛋白,GI:149389442(中國(guó)湖北株), GI:156914952(中國(guó)河北株), GI:169259719(美國(guó)德州株), GI:169244832(美國(guó)馬薩諸塞州株), GI:169244808(瑞士株), GI:169259719(德國(guó)株)。
我把GI:149389442(中國(guó)湖北株)對(duì)應(yīng)的.fasta文件導(dǎo)入到DNASTAR的Protean程序打開(kāi),得到結(jié)果如下:
軟件:
結(jié)果如下:
我怎么指導(dǎo)預(yù)測(cè)到的抗原表位對(duì)應(yīng)的肽鏈片段在哪一個(gè)位置?里面氨基酸排列的順序是怎樣的?
問(wèn)題比較啰嗦,謝謝趙老師。趙老師要是能推薦更好更方便的預(yù)測(cè)蛋白質(zhì)抗原表位的軟件就更好了。
趙忻藝錄像中已經(jīng)回答
問(wèn)(留言板):如何用已知的靶基因預(yù)測(cè)LncRNA???
趙忻藝部分文字回答:順和反式靶基因預(yù)測(cè)。
問(wèn):教一下,用SRAtoolkit怎么將SRA文件轉(zhuǎn)化為fastq文件格式?
趙忻藝部分文字回答:詳細(xì)看說(shuō)明書(shū)或百度。
問(wèn):請(qǐng)教,用geo2r分析的結(jié)果為什么和原文差那么多?多了好多好多的基因。
趙忻藝部分文字回答:可能是閾值和差異統(tǒng)計(jì)算法不同。
問(wèn):請(qǐng)教兩個(gè)關(guān)于TCGA 里面編號(hào)的問(wèn)題~ 樣本編號(hào) 01 -09 指代的是腫瘤組織 11-19指代的是正常組織。 20-29指代的是什么???
還有02指代的是什么?
TCGA code table report 登陸不上去 沒(méi)辦法查了……
趙忻藝部分文字回答:見(jiàn)往期問(wèn)題 http://mp.weixin.qq.com/s/42bsqnaD2MSpCa5qwG6H8g(點(diǎn)鏈接直達(dá))
問(wèn):請(qǐng)問(wèn)人類(lèi)基因組的gff3文件從哪下載呢?
答:可以從ucsc的table browser下載。
問(wèn):請(qǐng)問(wèn),R可以實(shí)現(xiàn)用bootstrap方法,計(jì)算ROC曲線(xiàn)auc, se等統(tǒng)計(jì)量以及置信區(qū)間的代碼么?發(fā)SCI可合作。謝謝大神們
答:可以
趙忻藝部分文字回答:http://mp.weixin.qq.com/s/_I4Pu1Re0C5jtc6BWE9t9g(點(diǎn)鏈接可直達(dá))
問(wèn):請(qǐng)問(wèn),GEO上SRP是什么數(shù)據(jù)?
答:可能是實(shí)驗(yàn)備注
趙忻藝部分文字回答:不是實(shí)驗(yàn)備注,是測(cè)序數(shù)據(jù)
問(wèn):GEO上能下載基因芯片的CEL文件,請(qǐng)問(wèn)哪里下載基因芯片的CDF文件和Probe文件?
趙忻藝部分文字回答:平臺(tái)信息
問(wèn):比如同一芯片,兩個(gè)研究,一個(gè)在中國(guó)20癌20癌旁,一個(gè)研究在美國(guó)一個(gè)癌12,正常組織9也是要分開(kāi)分析差異基因再找overlab值嗎。
趙忻藝部分文字回答:是的
問(wèn):請(qǐng)教下,測(cè)序深度=reads長(zhǎng)度×比對(duì)的reads數(shù)目/ 參考序列長(zhǎng)度這個(gè)公式怎么理解呢?reads什么意思???是不是fastq文件中的一行啊?
答:read就是測(cè)序片段(小片段)
趙忻藝部分文字回答:是的,fastq打開(kāi)是4行一個(gè)read。
問(wèn):參考序列長(zhǎng)度是啥啊
趙忻藝部分文字回答:全基因組大小。
問(wèn):gencode中current release與reference release有啥不同?
趙忻藝部分文字回答:版本不同
問(wèn):各位大神,我在做差異基因表達(dá)時(shí)候,運(yùn)行 fit<>時(shí),Error in lmFit(rt, design) : row dimension of designdoesn't match column dimension of data object,有誰(shuí)見(jiàn)過(guò)嗎?
趙忻藝部分文字回答:交代不明。截圖需截清楚。
問(wèn):圖中的p value ,t test,FC 是自己算的么,還是數(shù)據(jù)庫(kù)就可顯示?
趙忻藝部分文字回答:圖上已顯示
問(wèn):各位有遇到過(guò)這種情況的嗎?為什么我無(wú)法導(dǎo)入這個(gè)CEL文件到genespring里?
趙忻藝部分文字回答:無(wú)法識(shí)別(原因很多),采用萬(wàn)能導(dǎo)入法,見(jiàn)往期視頻。
問(wèn):
老師你好,今晚的課,我準(zhǔn)備提以下問(wèn)題。
1.有的geo芯片原始數(shù)據(jù)過(guò)于龐大,超過(guò)20個(gè)G,這種情況下可否就使用平臺(tái)矩陣文件,導(dǎo)入genespring。
趙忻藝部分文字回答:可以的。
2.平臺(tái)矩陣文件導(dǎo)入是否與原件導(dǎo)入不同?因?yàn)槠脚_(tái)矩陣除了多余行,有的還列出樣本臨床信息。
趙忻藝部分文字回答:不是,矩陣一般是標(biāo)準(zhǔn)化后的了
3.tcga數(shù)據(jù)庫(kù)可否也用genespring 分析,可否請(qǐng)老師單獨(dú)列為一課教授,謝謝。
趙忻藝部分文字回答:如果是求差異基因,從算法是可以的,但RNA-seq數(shù)據(jù)文章一般采用專(zhuān)門(mén)的軟件DEseq。
問(wèn):請(qǐng)教個(gè)問(wèn)題,趙老師講genespring是,導(dǎo)入的矩陣和平臺(tái)注釋信息時(shí)提前需要處理,請(qǐng)問(wèn)具體怎么處理的,謝謝。
答(趙忻藝浙大生信):把標(biāo)題的注解刪掉。
問(wèn):謝謝老師,是矩陣數(shù)據(jù)整理成這樣嗎?平臺(tái)注釋信息打不開(kāi),一直是沒(méi)反應(yīng)
問(wèn):
這是矩陣數(shù)據(jù)的形式,能整理成老師講課時(shí)的形式,但平臺(tái)注釋信息打不開(kāi)的問(wèn)題沒(méi)解決,是哪個(gè)地方我沒(méi)注意嗎?謝謝。我?guī)熃阕鲞^(guò)網(wǎng)絡(luò)的meta, 你做的是二分類(lèi)還是連續(xù)變量的
答(趙忻藝 浙大 生信):就是這樣可以的
問(wèn):
請(qǐng)問(wèn)技術(shù)名稱(chēng)怎么填,什么含義,國(guó)慶期間看的趙老師推文,因不是生信專(zhuān)業(yè),所以問(wèn)題有些多,麻煩大家了
趙忻藝部分文字回答:見(jiàn)往期視頻操作
問(wèn):
請(qǐng)問(wèn)一下老師和各位小伙伴,我用R語(yǔ)言做出來(lái)的差異基因表格中,一個(gè)基因?qū)?yīng)多個(gè)探針,我想取平均值或者最大值,但是具體函數(shù)包不會(huì)調(diào)用,可以賜教一下嗎
答:直接取最大值快一點(diǎn)吧。
問(wèn):我現(xiàn)在已經(jīng)得到差異基因表了,用什么函數(shù)取重復(fù)基因的最大值呢
答:先order一下 然后去duplicated,根據(jù)rowsum order
答(趙忻藝):你可以在excel中,排序再刪除重復(fù)項(xiàng)。
問(wèn):老師,差異基因表里面的數(shù)目比較多,我試過(guò)您這種辦法,貌似刪除下來(lái)挺多步驟的。
答(趙忻藝):不多,幾秒就好了。
問(wèn):我已經(jīng)排好序了,我手動(dòng)刪除嗎?有2469個(gè)差異基因呢。
答(趙忻藝):刪除重復(fù)項(xiàng),有按鈕的。
問(wèn):謝謝老師,已經(jīng)刪除了,但是留下來(lái)的基因,對(duì)應(yīng)的表達(dá)值,應(yīng)該是隨機(jī)的吧,這樣就不存在平均值或者最大值了。
答(趙忻藝):你排過(guò)序,他就保留最大了,即保留第一個(gè)。
問(wèn):老師,我是按照gene那一欄直接剔除重復(fù)項(xiàng),如圖兩張前后示,但是還是沒(méi)有保留最大值,您說(shuō)的排過(guò)序,是什么意思呢?
答(趙忻藝):根據(jù)值排序。
問(wèn):根據(jù)值排序,然后對(duì)gene欄進(jìn)行刪除重復(fù)嗎?表達(dá)值排序好像沒(méi)有哎,我先把AveExpr升序了,然后點(diǎn)擊刪除重復(fù)數(shù)據(jù),按照指示刪除gene中的重復(fù)數(shù)據(jù),依舊沒(méi)有保留最大值,請(qǐng)問(wèn)老師,我的問(wèn)題出在哪兒呢
答(趙忻藝):刪除它保留第一個(gè),只要你第一個(gè)是最大值就行。所以讓你排序。
問(wèn):哦哦,我知道原因了,應(yīng)該是把我的表達(dá)值降序來(lái)排。
謝謝老師,可是對(duì)于這種gene中好幾個(gè)基因名字的,老師你們是直接剔除掉嗎?
答(趙忻藝):可以保留,這個(gè)無(wú)所謂
問(wèn):謝謝老師,需要多多跟您學(xué)習(xí),對(duì)了,我考慮不保留重復(fù)的原因之一是,在我們做KEEG和GO分析的時(shí)候,是不是需要剔除好些呢?
答(趙忻藝):做KEGG時(shí)已經(jīng)剔除重復(fù)的了。
問(wèn):在freescience聯(lián)盟公眾號(hào)的文章“實(shí)踐(六)—多類(lèi)型芯片數(shù)據(jù)整合分析”里寫(xiě)的“如果對(duì)實(shí)現(xiàn)這流程有興趣的鞋童可以加入到freescience微信群進(jìn)行學(xué)習(xí)與交流,操作中的具體流程和文件都可以下載哦。。。”請(qǐng)問(wèn)具體流程和文件在哪里下載呢,謝謝.
同時(shí)還想請(qǐng)問(wèn)能不能給兩三個(gè)示例文件,這樣我可以看表格是怎么排布的,比如第一列是gene symbol,第二列是p值,第三列是fold change之類(lèi)的,這樣我可以把我的數(shù)據(jù)按格式排列好。
答:這個(gè)演示里面有啊,genespring,只有整合不同來(lái)源的數(shù)據(jù)時(shí)就不能只用genespring
問(wèn):就是要不同來(lái)源的
答:你下的gse數(shù)據(jù)就是表格,那你自己去下不同平臺(tái)的打開(kāi)看不就可以了嗎.
趙忻藝部分文字回答:以后講解。
問(wèn):請(qǐng)問(wèn)大家,r包運(yùn)行后生成在globalenviroment中變量能導(dǎo)出嗎?
答:找到方法了,似乎用,write.matrix可以直接導(dǎo)出。謝謝。
問(wèn):
請(qǐng)問(wèn):我用過(guò)r包c(diǎn)lusterprofiler和david做過(guò)比較,大多數(shù)情況clusterprofiler挺好的,但有一次得到的結(jié)果,david有我想要的,但clusterprofiler里沒(méi)有,這種情況是什么原因造成的?是不是q-value多重假設(shè)檢驗(yàn)的方式不一樣?
趙忻藝錄像中已回答
課件的分割線(xiàn)
通過(guò)往期介紹,當(dāng)我們從基因芯片的大數(shù)據(jù)中尋找到幾千或幾百個(gè)具有統(tǒng)計(jì)學(xué)和表達(dá)上差異的分子后如何解釋這些結(jié)果或者說(shuō)最終得到一個(gè)基因列表能告訴我們什么呢?從中能給我們什么提示?能下什么結(jié)論呢?
這里就要介紹一種分析方法就是富集分析了。首先不少人經(jīng)常會(huì)有這樣一個(gè)疑問(wèn)——僅僅一個(gè)基因列表又怎么能進(jìn)行統(tǒng)計(jì)分析呢?又沒(méi)有對(duì)照,怎么計(jì)算p值呢?
這里舉個(gè)例子:在一個(gè)廣場(chǎng)上從早上到晚上都有著各種活動(dòng),早上5-6點(diǎn)有老人在鍛煉身體,7-8點(diǎn)廣場(chǎng)上開(kāi)始有小販、游客和行人,到了下午有不少青年人舉行商業(yè)促銷(xiāo)活動(dòng),傍晚廣場(chǎng)就是屬于廣場(chǎng)舞大媽?zhuān)砩弦瓜艡n四起。那么當(dāng)我們?cè)诓恢罆r(shí)間的情況下,抽取廣場(chǎng)100個(gè)人,是否能從這百人的列表推測(cè)出廣場(chǎng)上正在進(jìn)行的活動(dòng)或者時(shí)間呢?當(dāng)100人群中有80%的人是大媽?zhuān)磕敲磸V場(chǎng)上進(jìn)行什么活動(dòng)在什么時(shí)間就顯而易見(jiàn)吧。
那么人換成基因也是同理的。首先要定義基因集(geneset), 也就是基于我們的先驗(yàn)知識(shí)(基因組注釋信息)。將基因富集可以想象成代表某一功能活動(dòng)的群體,每個(gè)個(gè)人可能同時(shí)參與好幾種功能活動(dòng),我們所分析的不是單個(gè) 個(gè)體的差異,而是實(shí)際群體和期望功能群體是否有差異,從而推測(cè)出此時(shí)此刻發(fā)生了什么事,在這些事件中哪些個(gè)體又起到了什么作用。
基因注釋信息根據(jù)通路數(shù)據(jù)庫(kù)例如KEGG,那么就是通路(Pathway)富集分析,如果根據(jù)GeneOntology包含分子功能(MolecularFunction),生物過(guò)程(biologicalprocess)和細(xì)胞組成(cellularcomponent)三個(gè)部分來(lái)注釋?zhuān)蔷褪荊O功能富集分析。這樣大家對(duì)富集分析有所理解了吧,當(dāng)然其中會(huì)涉及到統(tǒng)計(jì)方法例如fisher精確概率,GSEA,PACE,一般選用以上一種方法進(jìn)行即可。
以下是還原文獻(xiàn)中Onto-Tools進(jìn)行的功能富集分析描述。(PMID: 25712376)
Functional analysis
To evaluate thepotential functions of the gene list, we performed ontological analysis of DEgenes. The Onto-Express (OE) (http://vortex.cs.wayne.edu/ontoexpress), a web-based program, was used to perform the gene ontology (GO)enrichment analysis using hypergeometric tests. The pathway was analyzed by theKyoto Encyclopedia of Genes and Genomes (KEGG) http://www.genome.ad.jp/), as well as by Pathway-Express, another application in the Onto-Toolsdatabase.
接下來(lái)對(duì)其實(shí)現(xiàn)過(guò)程進(jìn)行實(shí)操:
1. 進(jìn)入網(wǎng)站,注冊(cè)(http://vortex.cs.wayne.edu/projects.htm)。
2. 注冊(cè)后瀏覽器會(huì)提示安裝java,根據(jù)提示操作即可
3. 接著會(huì)彈出窗口,選擇Onto-Express進(jìn)行GO分析,Pathway-Express進(jìn)行pathway分析。
4. 以pathway分析為例,輸入差異基因列表。(基因列表黏貼到一個(gè)新建的txt文檔)
5. 當(dāng)然在高級(jí)選項(xiàng)里選擇文獻(xiàn)中設(shè)定的分布類(lèi)型為hypergeometric ,即默認(rèn)。
6. 最終提交到服務(wù)器,運(yùn)行幾分鐘就可到結(jié)果。(需聯(lián)網(wǎng))
7. 具體點(diǎn)擊某通路可連接到KEGG數(shù)據(jù)庫(kù)。
8. 一般文章中最終結(jié)果會(huì)展示成表格或者類(lèi)似以下這樣的圖:
9. 那最終得到這樣的結(jié)果有什么意義呢?
首先在于全局性地了解這些差異分子可能影響到生物功能,提供新的研究方向。其次,縮小了研究范圍,從幾千幾百個(gè)差異分 子到幾十個(gè)功能通路富集的重要分子。最終驗(yàn)證和解釋實(shí)驗(yàn)結(jié)果,如果通路分析和預(yù)期功能實(shí)驗(yàn)相符,那就能從分子水平上進(jìn)一步驗(yàn)證和解釋功能現(xiàn)象。
本期就到這里了,相信大家對(duì)富集分析已經(jīng)有所了解了。下期將進(jìn)一步學(xué)習(xí)一個(gè)更簡(jiǎn)單,易操作的在線(xiàn)分析工具David,這個(gè)工具廣泛地被應(yīng)用到通路析和GO功能富集分析中。
聯(lián)系客服