偏最小二乘法判别分析(pls-da ,Partial least squares discrimination analysis)
偏最小二乘法判别分析原理:
偏最小二乘法判别分析是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进行训练,产生训练集,并检验训练集的可信度。
例如,肺炎和普通感冒两类患者群体利用最小偏二乘法判别分析,第一步归纳总结出肺炎和普通感冒的区别(特性),这一步就可以得到具有什么症状的人是肺炎,具有什么症状的人是普通感冒。第二步可以验证我们得到的普通感冒和肺炎区别(特性)判别的准确率,我们虽然建立了训练集,但由于样方少,样方不足以代表总体,样方受污染,所收纳样方的特性不足,等等原因都是影响我们训练集准确率因素,换个方向思考,我们建立一个较为具有代表意义的训练集,我们就可以反过来验证样本,可以得出医生可能误诊,原本是肺炎患者误诊成普通感冒,原本是普通感冒误诊为肺炎,并算出误诊率。误诊产生的原因可能由于现有技术不够发达,医师经验不足等等原因。
偏最小二乘法判别分析好处:
解释样本观测数目少
可以减少变量间多重共线性产生的影响
所谓的多重共线性是指一些自变量之间存在较强的线性关系。这种情况在实际应用中非常普遍,如研究高血压与年龄、吸烟年限、饮白酒年限等因素的关系,这些自变量通常是相关的,如果这种相关程度非常高,使用最小二乘法建立回归方程就有可能失效。
偏最小二乘法判别分析pls-da所需数据:
分组信息
因变量和自变量
因变量随着自变量的改变而改变。比如y=3x+2此处x为自变量y为因变量,y随着x的改变而改变。消费和收入关系,收入就是自变量,消费就是因变量。
赋值规则当样本属于哪类样本其值为1,否则为0
所谓的Y矩阵
对照样本 | 观测样本 | |
Y1 | 1 | 0 |
Y2 | 1 | 0 |
Y3 | 0 | 1 |
样本与变量之间的数据矩阵
所谓的X矩阵
x1 | x2 | |
y1 | ||
y2 | ||
Y3 |