统计分析/PCA，PCoA，NMDS等的区别

相信大家在做微生物多样性研究时经常听到PCA分析、PCoA分析，NMDS分析，CCA分析，RDA分析。它们对物种（或基因、功能）的分析具有重要作用，因而频频出现在16S测序及宏基因组测序中。那么你知道这些分析之前到底有什么区别吗？在什么情况下应该用什么分析呢？今天小编就给大家讲讲其中的奥秘。首先，以上分析本质上都属于排序分析（Ordination analysis）。排序(ordination)的过程就是在一个可视化的低维空间(通常是二维)重新排列这些样方,使得样方之间的距离最大程度地反映出平面散点图内样方之间的关系信息。常用的排序方法如下：

1、只使用物种组成数据的排序称作非限制性排序(unconstrained ordination)(1)主成分分析(principalcomponents analysis,PCA)(2)对应分析(correspondenceanalysis, CA)(3)去趋势对应分析(Detrended correspondence analysis, DCA)(3)主坐标分析(principal coordinate analysis, PCoA)(4)非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)2、同时使用物种和环境因子组成数据的排序叫作限制性排序(constrainedordination)(1)冗余分析(redundancyanalysis,RDA)(2)典范对应分析(canonicalcorrespondence analysis, CCA)让我们来仔细看看PCA与PCoA分析：在非限制性排序中，16S和宏基因组数据分析通常用到的是PCA分析和PCoA分析。两者的区别在于：PCA分析是基于原始的物种组成矩阵所做的排序分析，而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。在PCoA分析中，计算距离矩阵的方法有很多种，例如图1所示的Euclidean, Bray-Curtis, and Jaccard，以及图2显示的(un)weighted Unifrac (利用各样品序列间的进化信息来计算样品间距离，其中weighted考虑物种的丰度，unweighted没有对物种丰度进行加权处理)。

图1 Euclidean, Bray-Curtis, and JaccardPcoA图

图2 (a) weighted Unifrac PCoA分析

PCoA1维度将根内样品与根周边和土壤样品很好的分开；而PCoA2能够将不同土壤的样品很好的区分开来；(b)用pairwise-Bray-Curtis相似度对样品进行聚类。再来看看CCA与RDA分析：限制性排序主要有CCA分析和RDA分析。RDA基于线性模型，CCA则是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是，如果CCA排序的效果不太好，就可以考虑换做用RDA分析。RDA或CCA选择原则：先用species-sample资料做DCA分析，看分析结果中Lengths of gradient 的第一轴的大小，如果大于4.0，就应选CCA；如果在3.0-4.0之间，选RDA和CCA均可；如果小于3.0, RDA的结果要好于CCA。图3是CCA分析图，图中箭头代表不同的环境因子，射线越长表示该环境因子影响越大。环境因子之间的夹角为锐角时表示两个环境因子之间呈正相关关系，钝角时呈负相关关系。

图3 CCA分析图

读完这些，您理解了PCA、PCoA、NMDS、CCA、RDA之间的区别和联系吗？是不是觉得很涨姿势呢？

最后，附上一张文献里的图PCoA （本图在QIIME中完成的）

“Bacterial community structure and variation in a full-scale seawaterdesalination plant for drinking water production”