有些战友对利用单基因GSEA分析TCGA RNA-seq数据仍有些不解,我举个例子做个简单比较说明(基于broad 的javaGSEA)。
(一)目的
单基因GSEA分析的目的,简单说就是寻找与你感兴趣的基因表达相关的调控通路或生物学功能。单基因GSEA中的”单基因“指的就是你感兴趣的目的基因,比如下面我将举例的EZH2。
(二)方法
做单基因的GSEA的方法主要有两个:
1,根据你感兴趣的目的基因表达量进行分组,一般是按照中位值,也可以按照表达量前25%和75%进行分组,具体方法随个人;分组后计算两组间各个基因的表达差异,按照表达差异的fold change大小进行基因排序。
2,利用感兴趣目的基因表达量建立连续表型,通过计算其它基因与兴趣基因表达量的皮尔森相关系数,然后按照相关系数大小进行基因排序。
(三)以”在头颈癌HNSC中寻找与EZH2表达相关的调控通路“为例
数据:HNSC rna-seq RSEM数据,去除了表达量为0的基因,样品顺序按照EZH2的表达量进行了排序
通路:MSigDB:CP:KEGG: KEGG gene sets(186)
metric: 方法1:signal2noise; 方法2:pearson
分组:方法1 按照EZH2表达中位值分为高表达和低表达两组
1,两种方法的基因表达热图比较
2,两种方法的排序基因list比较
3,两种方法的富集数目比较
4,两种方法的富集结果比较
5,两种方法具体通路的比较,以DNA replication 为例
(四)结论
两种方法做单基因的GSEA得到的结果基本相同。
以上,供参考。