首页 > 编程知识 正文

kegg富集分析p-value,kegg富集中的q值

时间:2023-05-03 14:38:27 阅读:20181 作者:3319

欢迎关注微信公众号 《生信修炼手册》 !

KEGG pathway是最常用的功能注释数据库之一,KEGG的API可以用于获取一类所有基因的pathway注释,与human相对应的API链接如下

3358 rest.kegg.jp/link/HSA/pathway

此链接提供以下信息

path : HSA 00010 HSA :10327 path : HSA 00010 HSA :124 path : HSA 00010 HSA :125第1列为pathway编号,第2列为基因编号。 这里只提供pathway号码,但也需要与pathway对应的描述信息。 同样,也可以通过以下API链接获得

http://rest.kegg.jp/list/

从该链接中可以获得以下内容

path : map 00010 glycolysis/gluconeogenesispath : map 00020 citrate cycle (TCA cycle ) )。 path : map 00030 pentosephosphatepathwaypath : map 00040 pentoseandglucuronateinterconversionspath 3360 map 00051 fructoseandmanatior pathway是一个跨物种的概念,原始pathway编号为map或ko加上数字,对于特定物种,将其更改为与物种对应的三个字母缩写。 例如,human支持hsa,与所有具有pathway信息的物种相对应的三个字母缩写请参见以下链接

33559 www.genome.jp/kegg/catalog/org _ list.html

群集配置文件程序也通过KEGG API获取与物种对应的pathway注释。 对于已经有pathway注释的种类,只要知道对应的三个字符的缩写,clusterProfiler就会自动在互联网上获取该种类的pathway注释信息。

与GO富集分析一样,KEGG的富集分析也包括以下两种

1 .过度预测分析其实是费希尔精密检测,分析的代码如下

Ego-Enrichkegg(gene=gene,keyType='kegg ',organism='hsa ',pvalueCutoff=0.05,pAdjustMethod='BH ',qvalue 默认基因ID是kegg gene id,可以由keyType参数指定,也可以是ncbi-geneid、ncbi-proteind、uniprot。

不同类型ID的转换也通过KEGG API实现,例如hsa的kegg gene id和ncbi-geneid的对应关系请参考以下链接

3358 rest.kegg.jp/conv/NCBI-gene id/HSA

HSA :1 NCBI-gene id :1 HSA :100009667 NCBI-gene id 336010009667 HSA 33601000009676 NCBI-gene id 33601000000009676 HSA :10 以下是一个示例

bitr_kegg('1',fromType='kegg ',toType='ncbi-proteinid ',organism='hsa ' )2. genesetenrichmentanalytal

k-GSEkegg(genelist=gene,keyType='kegg ',organism='hsa ',nPerm=1000,minGSSize=10,maxGSSize=500,NPP 注释文件的形式如下

geneidkeggdescription1ko 33600001 spindle2ko :0002 mitotic spindle 3ko :00003 kinetochore可以是三列信息,第一列对应geneid,第二列对应基因如果包含这三种信息就好了。

读取该文件并进行分析的代码如下

data-read.table (pathway _ annotation.txt ),header=T,sep='t

")go2gene <- data[, c(2, 1)]go2name <- data[, c(2, 3)]# 费舍尔精确检验x <- enricher(gene,TERM2GENE = go2gene,TERM2NAME = go2name)# GSEA富集分析x <- GSEA(gene,TERM2GENE = go2gene,TERM2NAME = go2name)

对于KEGG富集分析的结果,clusterProfiler提供了以下几种可视化策略

1. barplot

用散点图展示富集到的pathways,用法如下

barplot(kk, showCategory = 10)

生成的图片如下

横轴为该pathway的差异基因个数,纵轴为富集到的pathway的描述信息, showCategory指定展示的pathway的个数,默认展示显著富集的top10个,即p.adjust最小的10个。注意的颜色对应p.adjust值,从小到大,对应蓝色到红色。

2. dotplot

用散点图展示富集到的pathways,用法如下

dotplot(kk, showCategory = 10)

生成的图片如下

横轴为GeneRatio, 代表该pathway下的差异基因个数占差异基因总数的比例,纵轴为富集到的pathway的描述信息, showCategory指定展示的pathway的个数,默认展示显著富集的top10个,即p.adjust最小的10个。图中点的颜色对应p.adjust的值,从小到大,对应蓝色到红色,大小对应该GO terms下的差异基因个数,个数越多,点越大。

3. emapplot

对于富集到的pathways之间的基因重叠关系进行展示,如果两个pathway的差异基因存在重叠,说明这两个节点存在overlap关系,在图中用线条连接起来,用法如下

emapplot(kk, showCategory = 30)

生成的图片如下

每个节点是一个富集到的pathway, 默认画top30个富集到的pathways, 节点大小对应该pathway下富集到的差异基因个数,节点的颜色对应p.adjust的值,从小到大,对应蓝色到红色。

4. cnetplot

对于基因和富集的pathways之间的对应关系进行展示,如果一个基因位于一个pathway下,则将该基因与pathway连线,用法如下

cnetplot(kk, showCategory = 5)

生成的图片如下

图中灰色的点代表基因,黄色的点代表富集到的pathways, 默认画top5富集到的pathwayss, pathways节点的大小对应富集到的基因个数。

5. browseKEGG

在pathway通路图上标记富集到的基因,代码如下

browseKEGG(kk, "hsa04934")

会给出一个url链接,示例如下

https://www.kegg.jp/kegg-留胡子的眼神/show_pathway?hsa04934/111/23236/4221/9586/5087/1026/1871/1583/51176

在浏览器中打开会看到如下所示的图片

富集到的差异基因会用红色方框表示,更多用法和细节请参考官方文档。

扫描关注微信号,更多精彩内容等着你!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。