数模算法:因子分析

时间:2024-03-27 22:47:11

引入

因子分析法通过研究变量间的相关系数矩阵,把这些变量间错综 复杂的关系归结成少数几个综合因子,由于归结出的因子个数少于原 始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过 程也称为降维。由于因子往往比主成分更易得到解释,故因子分析比 主成分分析更容易成功,从而有更广泛的应用。

数模算法:因子分析
例子:
林登(Linden)根据他收集的来自139名运动员的比赛数 据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了 因子分析研究。这十个全能项目为:100米跑(x1),跳远(x2), 铅球(x3),跳高(x4),400米跑(x5),11米跨栏(x6),铁饼(x7),撑 杆跳高(x8),标枪(x9),1500米跑(x10)。经标准化后所作的因子 分析表明,十项得分基本上可归结于他们的短跑速度、爆发性 臂力、爆发性腿力和耐力这四个方面,每一方面都称为一个因 子。十项得分与这四个因子之间的关系可以描述为如下的因子模型:
数模算法:因子分析

原理

数模算法:因子分析

模型假设

数模算法:因子分析

性质

数模算法:因子分析
数模算法:因子分析
利用因子载荷不唯一,通过因子的变换,使得新的因 子具有更容易解释的实际意义

因子载荷矩阵

数模算法:因子分析
数模算法:因子分析

参数估计

数模算法:因子分析
spss三种常用估计方法
主成分法,假设变量是因子的线性组合,第一主成分有最大的方差,后续主成 分所解释的方差逐渐减小,各主成分之间互不相关,主成分法通常用来计算初 始公因子,它也适用于相关矩阵为奇异时的情况。
最大似然法,假设样本来自多元正态分布,使用极大使然估计。
主轴因子法,从初始相关矩阵提取公共因子,并把多元相关系数的平方置于对 角线上,再用初始因子载荷估计新的变量共同度,如此重复直至变量共同度在 两次相邻迭代中的变化达到临界条件。

因子旋转

得到因子模型后,其中的公共因子不一定能反映问题的实质特征,为 了能更好地解释每一个公共因子的实际意义,且减少解释的主观性,可以通过因子旋转达到目的。 常用正交旋转,正交旋转而得到的新的公共因子仍然保持彼此独立的性质。
spss使用最多的就是最大方差法。
数模算法:因子分析

因子得分

数模算法:因子分析
我们计算出因子得分函数的系数后,就能够求出所有的因子得分。

spss常用
数模算法:因子分析

SPSS操作步骤

数模算法:因子分析
数模算法:因子分析

解释

数模算法:因子分析
KMO检验
KMO检验是Kaiser, Meyer和Olkin提出的,该检验是对原始变量之间的简单相关系数和偏相关系 数的相对大小进行检验,主要应用于多元统计的因子分析。 KMO统计量是取值在0和1之间,当所有变量间的简单相关系数平方和远远大于偏相关系数平方和 时,KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量 间的简单相关系数平方和接近0时,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越 不适合作因子分析。 其中,Kaiser给出一个KMO检验标准:KMO>0.9,非常适合;0.8<KMO<0.9,适合; 0.7<KMO<0.8, 一般;0.6<KMO<0.7,不太适合;KMO<0.5,不适合。
巴特利特球形检验
巴特利特球形检验是一种检验各个变量之间相关性程度的检验方法。一般在做因子分析之前都要 进行巴特利特球形检验,用于判断变量是否适合用于做因子分析。巴特利特球形检验是以变量的 相关系数矩阵为出发点的。它的原假设是相关系数矩阵是一个单位阵(不适合做因子分析,指标 之间的相关性太差,不适合降维),即相关系数矩阵对角线上的所有元素都是1,所有非对角线 上的元素都为0。巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到的。如果该值较 大,且其对应的p值小于用户心中的显著性水平(一般为0.05),那么应该拒绝原假设,认为相 关系数不可能是单位阵,即原始变量之间存在相关性,适合于作因子分析。相反不适合作因子分析。

用SPSS做因子分析时,在查看器中 若得不到KMO检验和Bartlett检验结果,则 说明你的样本量小于指标数了,需要增加样 本量或者减少指标个数再来进行因子分析。
数模算法:因子分析

一般运行两次

第一次运行因子分析的结果一般作为参考,首先我们要确定原始数据 是否适合进行因子分析,即能否通过KMO检验和巴特利特球形检验。

根据第一次运行的结果来确定公共因子的个数。
碎石检验(scree test)是根据 碎石图来决定因素数的方法。 Kaiser提出,可通过直接观察 特征值的变化来决定因素数。 当某个特征值较前一特征值的 值出现较大的下降,而这个特征值较小,其后面的特征值变化不大,说明添加相应于该特 征值的因素只能增加很少的信 息,所以前几个特征值就是应 抽取的公共因子数。
例如:
数模算法:因子分析
从碎石图可以看出,前两个因子对应的特征值的变化较为陡峭,从第三个因子 开始,特征值的变化较为平坦,因此我们应选择两个因子进行分析。
调整因子个数再次分析
数模算法:因子分析
数模算法:因子分析
数模算法:因子分析
共性方差在SPSS中被称为了公因子方差。

总方差解释表,给出了每个公共因子所解释的方差及累计和。

数模算法:因子分析
“提取载荷平方和”一栏是在未旋转时被提取的2个公共因子的方差贡献信息,其 与“初始特征值”栏的前两行取值一样。
“旋转载荷平方和”是旋转后得到的新公共因子的方差贡献信息,和未旋转的贡献 信息相比,每个公共因子的方差贡献率有变化,但最终的累计方差贡献率不变。

“旋转后的成分矩阵”是经过旋转后的因子载荷矩阵。旋转后的每个公共因子上 的载荷分配更清晰了,因而比未旋转时更容易解释 各因子的意义。
我们在实际应用中只用关注旋转后的因子载荷矩阵即可。 因子载荷是变量与公共因子的相关系数,当某变量在某公共因子中的载荷绝对值越大,表明该变量与 该公共因子更密切,即该公共因子更能代表该变量。
数模算法:因子分析
数模算法:因子分析
数模算法:因子分析
和主成分分析一样,我们可以用因子得分f1和f2作为两个新的变量,来进行后 续的建模(例如聚类、回归等)