首页 > 未分类 > 偏最小二乘法判别分析(pls-da)

偏最小二乘法判别分析(pls-da)

偏最小二乘法判别分析(pls-da ,Partial least squares discrimination analysis)

偏最小二乘法判别分析原理:

偏最小二乘法判别分析是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进行训练,产生训练集,并检验训练集的可信度。

例如,肺炎和普通感冒两类患者群体利用最小偏二乘法判别分析,第一步归纳总结出肺炎和普通感冒的区别(特性),这一步就可以得到具有什么症状的人是肺炎,具有什么症状的人是普通感冒。第二步可以验证我们得到的普通感冒和肺炎区别(特性)判别的准确率,我们虽然建立了训练集,但由于样方少,样方不足以代表总体,样方受污染,所收纳样方的特性不足,等等原因都是影响我们训练集准确率因素,换个方向思考,我们建立一个较为具有代表意义的训练集,我们就可以反过来验证样本,可以得出医生可能误诊,原本是肺炎患者误诊成普通感冒,原本是普通感冒误诊为肺炎,并算出误诊率。误诊产生的原因可能由于现有技术不够发达,医师经验不足等等原因。

 

偏最小二乘法判别分析好处:

解释样本观测数目少

可以减少变量间多重共线性产生的影响

所谓的多重共线性是指一些自变量之间存在较强的线性关系。这种情况在实际应用中非常普遍,如研究高血压与年龄、吸烟年限、饮白酒年限等因素的关系,这些自变量通常是相关的,如果这种相关程度非常高,使用最小二乘法建立回归方程就有可能失效。

偏最小二乘法判别分析pls-da所需数据:

分组信息

因变量和自变量

因变量随着自变量的改变而改变。比如y=3x+2此处x为自变量y为因变量,y随着x的改变而改变。消费和收入关系,收入就是自变量,消费就是因变量。

赋值规则当样本属于哪类样本其值为1,否则为0

所谓的Y矩阵

对照样本 观测样本
Y1 1 0
Y2 1 0
Y3 0 1

样本与变量之间的数据矩阵

所谓的X矩阵

x1 x2
y1
y2
Y3