我们在分析问题的时候,为了准确全面的反映问题,常常收集很多变量,这些变量之间往往具有相关性,导致存在大量的重复信息,直接使用的话,不但模型非常复杂,而且所引起的共线性问题会使模型准确度降低。
对此,我们经常使用主成分分析对数据进行处理,主成分分析是考察多变量间相关性的一种多元统计分析方法,基本思想是:既然变量很多并且之间存在相关性,那么我们就将其压缩合并,通过统计分析方法将多个变量结合成少数几个有代表性的主成分,这些主成分携带了原始变量的绝大部分信息,并且之间互不相关。
有时,我们提取主成分并不是最终目的,而是希望通过它起到降维和消除变量间共线性的作用,进而再做进一步分析,因此主成分分析经常被作为某些分析的中间一环。由于主成分分析和因子分析有很多共同之处,因此在SPSS中,二者共用一个过程
我们来看一个例子
我们希望对30个省市的经济发展情况作出分析评价,选取了8个指标,这8个指标彼此间存在关联且各指标重要性也存在差异,我们可以使用主成分分析进行初步处理
分析—降维—因子分析