1.已經(jīng)確定研究的基因,但是想探索他潛在的功能,可以通過(guò)跟這個(gè)基因表達(dá)最相關(guān)的基因來(lái)反推他的功能,這種方法在英語(yǔ)中稱(chēng)為guilt of association,協(xié)同犯罪。
2.我們的注釋方法依賴(lài)于TCGA大樣本,既然他可以注釋基因,那么任何跟腫瘤相關(guān)的基因都可以被注釋?zhuān)ㄩL(zhǎng)鏈非編碼RNA。
這個(gè)方法以前闡述過(guò):
單基因批量相關(guān)性分析的妙用
但是這個(gè)方法有個(gè)小缺陷,并不知道最后富集的通路是正向影響還是反向影響,也就是無(wú)法判斷方向。判斷方向的工具也不是沒(méi)有,GSEA就是一個(gè)。所以,我想能不能把批量相關(guān)性分析和GSEA結(jié)合起來(lái)。
GSEA需要的gene set是現(xiàn)成的沒(méi)有問(wèn)題,但是genelist沒(méi)有,這里我們可以把所有基因跟單個(gè)基因的相關(guān)性系數(shù)當(dāng)做LogFC,有正有負(fù),就解決了geneList的問(wèn)題。這個(gè)想法不是我的,是我的一個(gè)學(xué)員的,不過(guò)他要解決的是microRNA把基因的問(wèn)題。
下面來(lái)實(shí)戰(zhàn)一下:
這個(gè)數(shù)據(jù)是我下載了TPM數(shù)據(jù),然后提取出乳腺癌的數(shù)據(jù)得來(lái)的。
load(file = 'BRCA_mRNA_exprSet.Rdata')
exprSet <- mRNA_exprSet
test <- exprSet[1:10,1:10]
這個(gè)函數(shù)只要輸入一個(gè)基因,他就會(huì)批量計(jì)算這個(gè)基因跟其他編碼基因的相關(guān)性,返回相關(guān)性系數(shù)和p值。
batch_cor <- function(gene){
y <- as.numeric(exprSet[gene,])
rownames <- rownames(exprSet)
do.call(rbind,future_lapply(rownames, function(x){
dd <- cor.test(as.numeric(exprSet[x,]),y,type='spearman')
data.frame(gene=gene,mRNAs=x,cor=dd$estimate,p.value=dd$p.value )
}))
}
以PCDC1
這個(gè)基因?yàn)槔?/p>
library(future.apply)
plan(multiprocess)
system.time(dd <- batch_cor('PDCD1'))
這是返回的結(jié)果
gene <- dd$mRNAs
## 轉(zhuǎn)換
library(clusterProfiler)
gene = bitr(gene, fromType='SYMBOL', toType='ENTREZID', OrgDb='org.Hs.eg.db')
## 去重
gene <- dplyr::distinct(gene,SYMBOL,.keep_all=TRUE)
gene_df <- data.frame(logFC=dd$cor,
SYMBOL = dd$mRNAs)
gene_df <- merge(gene_df,gene,by='SYMBOL')
## geneList 三部曲
## 1.獲取基因logFC
geneList <- gene_df$logFC
## 2.命名
names(geneList) = gene_df$ENTREZID
## 3.排序很重要
geneList = sort(geneList, decreasing = TRUE)
library(clusterProfiler)
## 讀入hallmarks gene set,從哪來(lái)?
hallmarks <- read.gmt('h.all.v6.2.entrez.gmt')
# 需要網(wǎng)絡(luò)
y <- GSEA(geneList,TERM2GENE =hallmarks)
作圖看整體分布
### 看整體分布
library(ggplot2)
dotplot(y,showCategory=12,split='.sign')+facet_grid(~.sign)
本次結(jié)果中全是激活的
yd <- data.frame(y)
library(enrichplot)
gseaplot2(y,'HALLMARK_INTERFERON_ALPHA_RESPONSE',color = 'red',pvalue_table = T)
PCDC1
跟阿拉法干擾素正相關(guān),這個(gè)事情沒(méi)什么好說(shuō)的吧。
好了,我們又掌握了一個(gè)特別強(qiáng)悍,實(shí)用的技能。我是果子,明天見(jiàn)。
聯(lián)系客服