SPSS案例分析3:因子分析

时间:2024-03-02 09:08:38

http://hi.baidu.com/datasoldier/item/6689c4a50ec250dc5af1914c

http://hi.baidu.com/datasoldier/item/702c381942513f10e2f9864c

因子分析在各行各业的应用非常广泛,尤其是科研论文中因子分析更是频频出现。小兵也凑个热闹,参考《SPSS统计分析》书中的案例,运用SPSS进行因子分析,作为我博客 SPSS案例分析系列  的第三篇文章。

【一、概念】
探讨具有相关关系的变量之间,是否存在不能直接观察到的,但对可观测变量的变化其支配作用的潜在因素的分析方法就是因子分析,也叫因素分析。通俗点:因子分析是寻找潜在的、起支配作用因子的方法。

【二、简单实例】
现在有 12 个地区的 5 个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进行综合评价,请确定出这 12 个地区的综合评价指标。点击下载

【三、解决方案】
1、spss因子分析

同一指标在不同地区是不同的,用单一某一个指标难以对12个地区进行准确的评价,单一指标智能反映地区的某一方面。所以,有必要确定综合评价指标,便于对比。因子分析是一个不错的选择,5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻找出潜在的因素,用这些具有综合信息的因素对各地区进行评价。下图是spss因子分析的操作界面,主要包括5方面的选项,变量区只能选择数值型变量,分类型变量不能进入该模型。另外,spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认自动进行标准化处理,因此不需要对这些变量提前进行标准化处理。

 

 

2、描述统计选项卡

我们希望看到各变量的描述统计信息,要对比因子提取前后的方差变化,所以选定“单变量描述性”和“原始分析结果”;现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数和显著性水平“,比较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采用因子分析方法。比较糟糕的是,kmo结果有时并不会出现,这主要与变量个数和样本量大小有关。

 

 

3、抽取选项卡

在该选项卡中设置如何提取因子,提取因子的方法有很多,最常用的就是主成分法。因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。经常用到碎石图对于判断因子的个数很有帮助,一般都会选择该项。关于特征值,不想解释太多,这和显著性水平一样,都是统计学的一个基本概念。一般spss默认只提取特征值大于1的因子,但,我还可以通过自定义设置需要提取的因子个数。另外,收敛次数比较重要,可以从首次结果反馈的信息进行调整。

 

 

4、因子旋转选项卡

因子分析要求对因子给予命名和解释,对因子旋转与否取决于因子的解释。如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。这里直接旋转,便于解释。至于旋转就是坐标变换,使得因子系数向1 和 0 靠近,对公因子的命名和解释更加容易。旋转方法一般采用”最大方差法“即可,输出旋转后的因子矩阵和载荷图,对于结果的解释非常有帮助。

 

 

5、保存因子得分

要计算因子得分,就必须先写出因子的表达式。而因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。前面说到,因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用原始变量也就是参与分析的变量来表示因子。从而得到因子得分。因子得分作为变量保存,对于以后深入分析很有用处。

 

 

【四、结果解释】
1、验证数据是否适合做因子分析

主要参考kmo结果,一般认为大于0.5,即可接受。同时还可以参考相关系数,一般认为分析变量的相关系数多数大于 0.3,则适合做因子分析;从 KMO=0.575 检验来看,不是特别适合因子分析,基本可以通过。这里主要是为了简单介绍因子分析,所以,不看重这一结果。

 

 

2、因子方差表

提取因子后因子方差的值均很高,表明提取的因子能很好的描述这 5 个指标。方差分解表也表明,默认提取的前两个因子能够解释 5 个指标的 93.4%。碎石图表明,从第三个因子开始,特征值差异很小。综合以上,提取前两个因子。

 

 

 

 

3、因子矩阵

由旋转因子矩阵可以看出,经旋转后,因子便于命名和解释。因子 1主要解释的是中等房价、专业服务项目、中等校平均校龄,可以命名为社会福利因子;而因子 2 主要解释的是其余两个指标,总人口和总雇员。可以命名为人口因子。因子分析要求,最后得到的因子之间相互独立,没有相关性,而因子转换矩阵显示,两个因子相关性较低。可见,对因子进行旋转是完全有必要的。

 

             

 

4、因子系数

因子得分就是根据这个系数和标准化后的分析变量得到的。其次,在数据视图中可以看到因子得分变量。

5、结论

经过因子分析,我们的目的实现了,找到了两个综合评价指标,即人口因子和福利因子。从原来的 5 个指标挖掘出 2 个潜在的综合因子。可以对12 个地区给出客观评价。

 

 

 

我们可以根据因子1或者因子2得分,对这12个地区进行从大到小排序,得分高者被认为在这个维度上有较好表现。一般上因子分析到此就已经结束了,如果想再进一步展开分析,一般可以采取两种方式,第一是进行因子综合得分的计算,用一个总得分对样本进行大小排序,得分高者为佳;第二,将得到的若干因子作为新的变量,进行聚类分析,这两种方式,均单独有文字介绍。见以下链接:1综合得分2用于聚类分析

 

    在上一篇文章里面提到,因子得分不是因子分析的最终结果,因子得分可以作为变量进行回归分析、聚类分析、计算因子的综合得分等等。因子综合得分在因子得分的后续运用中很是重要,所以,在这里提一提。涉及的知识也是从其他地方截图过来的,凑合着写。

一、实例

       还用上一篇文章的例子。上篇中将因子分析进行到计算出“因子得分”变量。为了进一步综合评价12个地区,我们需要从两个因子的总体上去把握,综合得分可以实现,用综合得分对12个地区进行排序、排名。

二、回顾


三、计算变量,在spss中完成公式的计算

      当然,我们没有必要把因子得分变量转移到excel 中进行计算得出综合得分。在SPSS 中就完全就可以实现这一步骤。用“计算变量”过程,新建一个新的变量,可以命名为“综合得分”并输入其计算公式。关于因子贡献率不用说太多了。自己一看就明白的事情多说无益。



四、结果。

       我们另外在新建一个变量“排名”,一次输入1到12 。很清楚地可以对12 个地区进行评价。

五、因子分析的特殊问题(特别注意,特别提醒)