免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
GEO多個(gè)芯片聯(lián)合分析,TCGA數(shù)據(jù)庫,生存分析對(duì)差異基因驗(yàn)證,熱圖,火山圖,差異表達(dá),GO功能分析,KEGG富集通路,Cytoscape構(gòu)建蛋白互作網(wǎng)絡(luò)
查找和下載數(shù)據(jù)
從GEO搜索關(guān)鍵字“(gastric cancer) AND "Homo sapiens"[porgn:__txid9606]”,得到胃癌相關(guān)的表達(dá)譜數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行過濾,過濾掉沒有重復(fù)試驗(yàn)的樣品。接下來,閱讀文獻(xiàn),找出研究正常人和癌癥病人,或者癌組織與正常組織的比較的數(shù)據(jù)。下載這些數(shù)據(jù)的表達(dá)矩陣或CEL文件,用于后續(xù)的分析。
(本文分析為原創(chuàng),轉(zhuǎn)載或引用文中圖片請(qǐng)聯(lián)系樓主,謝謝。數(shù)據(jù)請(qǐng)勿直接引用。)
表1 用于分析的數(shù)據(jù)
注:
Series              序列號(hào)
GEO               GEO id
Platforms          芯片平臺(tái)號(hào)
Normal            正常樣品數(shù)目
Tumor             癌癥樣品數(shù)目
Reference          參考文獻(xiàn)
數(shù)據(jù)處理
對(duì)于芯片表達(dá)值數(shù)據(jù),直接從GEO下載數(shù)據(jù),對(duì)于沒有取log的值,進(jìn)行取log處理。對(duì)于CEL文件,使用affy包讀取CEL文件的表達(dá)量數(shù)據(jù)。在同一芯片內(nèi),如果一個(gè)基因有多個(gè)探針,取所有探針的平均值作為基因的表達(dá)值。
差異表達(dá)
對(duì)于每個(gè)實(shí)驗(yàn)的數(shù)據(jù),我們使用limma進(jìn)行芯片之間的標(biāo)準(zhǔn)化,差異表達(dá)分析(每個(gè)實(shí)驗(yàn)的limma分析結(jié)果保存在01_limma里面)。
每個(gè)實(shí)驗(yàn)數(shù)據(jù)做完limma分析之后,根據(jù)logFoldChange值對(duì)基因進(jìn)行排序,然后進(jìn)行Rank分析(adjust Pvalue<0.05,矯正方法為bonferroni矯正法)。Rank方法的零假設(shè)是每個(gè)基因在每個(gè)實(shí)驗(yàn)中隨機(jī)排序,如果某個(gè)基因在所有實(shí)驗(yàn)中,都排在前面,那么它的p值越小,是差異基因可能性越大。
通過Rank分析,我們共找到960個(gè)差異基因,其中458個(gè)上調(diào)基因,502個(gè)下調(diào)基因。
使用pheatmap繪制最上調(diào)和最下調(diào)的20個(gè)基因做熱圖,得到差異基因的熱圖。從圖中可以看出,上調(diào)的基因基本在所有實(shí)驗(yàn)中l(wèi)ogFC>0,而下調(diào)的基因基本在所有的實(shí)驗(yàn)中l(wèi)ogFC<0。
表2 差異基因列表
注:
Name               gene symbol
logFC               每個(gè)實(shí)驗(yàn)差異logFC均值
Pvalue              統(tǒng)計(jì)學(xué)p值
adjPvalue           校正后的p值
圖1 logFC熱圖
橫坐標(biāo)是geo id,縱坐標(biāo)是基因名,紅色代表logFC>0,綠色代表logFC<0,方框里面的數(shù)值代表logFC值。
TCGA驗(yàn)證差異基因
從TCGA下載胃癌level3的RNA-seq數(shù)據(jù),共xx個(gè)正常組織,xx個(gè)腫瘤組織。下載的數(shù)據(jù)是每個(gè)樣品單個(gè)的FPKM文件,我們使用perl語言將所有的樣品合并成一個(gè)矩陣,便于后續(xù)的分析。接下來,我們使用Wilcoxon tests非參數(shù)檢驗(yàn)對(duì)GEO數(shù)據(jù)庫得到差異基因進(jìn)行驗(yàn)證。
通過TCGA驗(yàn)證,我們共找到749個(gè)差異基因,其中320個(gè)上調(diào)基因,429個(gè)下調(diào)基因。
表3 TCGA驗(yàn)證差異基因
注:
Name               gene symbol
logFC               每個(gè)實(shí)驗(yàn)差異logFC均值
Pvalue              統(tǒng)計(jì)學(xué)p值
adjPvalue           校正后的p值
生存分析
從TCGA下載生存數(shù)據(jù),并將生存數(shù)據(jù)和差異基因表達(dá)數(shù)據(jù)整合在一起,做接下來的生存分析。使用survival R包進(jìn)行生存分析并繪制生存曲線,統(tǒng)計(jì)檢驗(yàn)為log rank檢驗(yàn),過濾條件為Pvalue<0.01。通過分析,共找到168個(gè)與胃癌生存相關(guān)的差異基因,結(jié)果保存在04_TCGAsurvival/survival.xlsx里面。168個(gè)生存相關(guān)基因的生存曲線保存在04_TCGAsurvival/picture目錄下。
圖2 生存分析
圖中,橫坐標(biāo)是生存時(shí)間,縱坐標(biāo)是總生存率,紅色表達(dá)基因高表達(dá)組,藍(lán)色代表低表達(dá)組。
GO富集分析
使用DAVID對(duì)目標(biāo)靶基因進(jìn)行GO功能富集分析,F(xiàn)DR<0.05被作為篩選條件,我們共找到5個(gè)相關(guān)的GO,(即“extracellular space”、“digestion”等),使用ggplot2 R包繪制GO富集柱狀圖。5個(gè)相關(guān)GO表格和GO富集柱狀圖保存在diffSig\GO\GO.xls目錄下。
圖5 GO富集結(jié)果
注:
Term                 富集的GO
Count                差異基因落在Term的數(shù)目
PValue               富集統(tǒng)計(jì)學(xué)p值
FDR                 統(tǒng)計(jì)FDR值(false discovery rate)
圖3 GO富集柱狀圖
橫坐標(biāo)是富集在GO的基因數(shù)目,縱坐標(biāo)是富集的GO。顏色代表富集的統(tǒng)計(jì)學(xué)顯著性,越藍(lán)表示富集程度越高。
(本文分析為原創(chuàng),轉(zhuǎn)載或引用上面圖片請(qǐng)聯(lián)系樓主,謝謝。數(shù)據(jù)請(qǐng)勿直接引用。)
KEGG富集分析
使用KOBAS對(duì)差異基因進(jìn)行KEGG通路富集分析,Corrected P-Value<0.05被作為篩選條件。我們共找到23個(gè)相關(guān)的KEGG,富集的表格保存在diffSig\KEGG\KEGG.xlsx目錄下,最富集通路hsa04971圖保存在diffSig\KEGG\hsa04971.png目錄下。如果需要查看其它富集通路的通路圖,可以打開差異diffSig\KEGG\KEGG.xlsx,點(diǎn)擊相應(yīng)通路的Hyperlink鏈接即可。
表6 KEGG富集結(jié)果
注:
Term                         富集的KEGG
ID                            KEGG ID
P-Value                       富集統(tǒng)計(jì)學(xué)p值
Corrected P-Value              矯正后的p值
圖4 hsa04971通路圖
綠色代表通路中的基因,紅色代表我們輸入的生存相關(guān)基因。
(本文分析為原創(chuàng),轉(zhuǎn)載或引用上面圖片請(qǐng)聯(lián)系樓主,謝謝。數(shù)據(jù)請(qǐng)勿直接引用。)
蛋白互作網(wǎng)絡(luò)
使用String軟件對(duì)生存相關(guān)基因構(gòu)建蛋白互作網(wǎng)絡(luò),得到蛋白的相互作用關(guān)系。圖1是蛋白互作網(wǎng)絡(luò)圖,圖中圓圈代表蛋白,連線蛋白蛋白之間存在互作關(guān)系。使用R軟件繪制互作網(wǎng)絡(luò)鄰接節(jié)點(diǎn)數(shù)目圖,圖2是每個(gè)蛋白的鄰接節(jié)點(diǎn)數(shù)目,鄰接節(jié)點(diǎn)數(shù)目越多,說明該基因位于蛋白互作網(wǎng)絡(luò)的核心,對(duì)整個(gè)網(wǎng)絡(luò)起的作用最關(guān)鍵。由圖2可以看出,CFTR、SST、TIMP1等位于網(wǎng)絡(luò)的最核心。蛋白互作網(wǎng)絡(luò)圖和互作網(wǎng)絡(luò)鄰接節(jié)點(diǎn)數(shù)目圖、互作網(wǎng)絡(luò)鄰接節(jié)點(diǎn)數(shù)表格保存在diffSig\蛋白互作網(wǎng)絡(luò)目錄下。
圖5 蛋白相互作用網(wǎng)絡(luò)圖
圓圈代表基因,線條代表基因間存在蛋白相互作用,圓圈內(nèi)部的結(jié)果代表蛋白的結(jié)構(gòu)。線頭顏色代表證明蛋白之間存在相互作用的不同證據(jù)。(small nodes:protein of unknown 3D structure; large nodes: some 3D structure is known or predicted; A red line indicates the presence of fusion evidence ; a green line - neighborhood evidence; a blue line - coocurrence evidence; a purple line - experimental evidence; a yellow line – text mining evidence; a light blue line - database evidence; a black line - coexpression evidence.)
本文分析為原創(chuàng),轉(zhuǎn)載或引用上面圖片請(qǐng)聯(lián)系樓主,謝謝。數(shù)據(jù)請(qǐng)勿直接引用。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
GEO數(shù)據(jù)庫甲基化芯片挖掘發(fā)SCI是怎樣煉成的
GEO聯(lián)合TCGA數(shù)據(jù)挖掘文獻(xiàn)分享
(收藏)GEO芯片數(shù)據(jù)下載,矩陣提取,基因分析,差異miRNA分析,miRNA靶基因預(yù)測(cè),GO、KE...
4分文獻(xiàn)解讀:整合生物信息學(xué)鑒定結(jié)直腸癌的核心基因和通路
一篇最基本生信分析文獻(xiàn)解讀
哈?確定這是我零代碼能復(fù)現(xiàn)的非腫瘤文章嗎!
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服