首页 > news > 生信分析之PCA

生信分析之PCA

        PCA (Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。
        比较抽象?那咱们举个简单的例子。
        小A和小B是一对双胞胎,他们在外貌、身高、体型等方面差异都很小。但是小A的额头上有颗痣,小B没有。此时,分辨小A和小B只需要根据额头上的痣即可,无需关注两个人在外貌、身高、体型等方面的微小差别。这颗“痣”可以作为区分小A和小B的主成分。
        但是数据分析时,数据之间的区分点并不像“痣”那么明确,并且计算机也不会像人似的那么智能,它不会区分哪些特征可以作为区分数据的主要因素。这时候就需要给计算机一种区分方法——PCA主成分分析。
PCA的原理
        假设我们有N个P维的数据要区分, X1,X2,……,Xn。如果P比较大,那么处理的数据量较大,我们需要将P维的数据降至d维(d<P)。首先构造矩阵S=[X1,X2…Xn],算出协方差矩阵C(P维方阵),求出C的特征值T和特征向量V。将特征值按从大到小排列取出前d个特征值,并将这些特征值对应的特征向量构成一个投影矩阵L。使用S×L则得到降维后的提出主成分的矩阵。
        (不知道你们懂了么,反正数学小白的小编…… O(∩_∩)O)
        忽略头疼的原理,下面小编将从PCA分析的用途、PCA算法、PCA图解读、PCA分析软件等方面来进行详细解释。
PCA的用途
        PCA分析它可以反映以下问题哟!
(1)揭示造成样本差异性的主成分及其贡献率。如在下图中,造成样本差异性最大的成分为PC1,贡献率为97.85%。
(2)揭示不同处理下的样品的情况。样品组成越相似,样本在PCA中的距离越近。
(3)样本间的差异性。两样本在横、纵坐标轴上的距离表示样本受主成分(PC1和PC2)影响下的相似性距离。
PCA的算法
        对于微生物多样性分析,PCA分析是基于每个样品的OUT(97%相似性)丰度作图。
        通过分析不同样品OTU(97%相似性)组成可以反映样品间的差异和距离,PCA 运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。
PCA的解读
        以下图为例对PCA图进行解读哟!
图中的点:不同颜色表示不同的分组。红色表示A组,蓝色表示B组。
坐标轴:能够最大反映样本差异性的两个成分(PC1和PC2)。
坐标轴上的刻度:为相对距离,无实际意义。
百分数:表示成分的贡献率。如PC1成分的贡献率为97.85%,PC2成分的贡献率为1%。
        对于目前比较流行的3D-PCA分析图,它的图解也是相同的。只不过二维PCA只展现贡献率前二名的成分,3D-PCA可以更直观的展现贡献率前三位的成分。
分析软件
        PCA分析可以用mothur,PC-ORD或是CANOCO做出来哟。