文件名称:applied multivariate statistics
文件大小:6.82MB
文件格式:PDF
更新时间:2016-03-17 15:39:07
stat
对主成分分析中综合得分方法的质疑 王学民 (发表于《统计与决策》,2007年4月下) 摘要:在作主成分分析时,国内近年来流行一种通过建立综合评价函数来对各样品进行综合排名的方法。本文对这一方法的不科学性作了阐述,并指出在综合评价函数中对各主成分使用贡献率加权是错中加错。 关键词:主成分;信息量;综合评价函数;综合得分 一、问题的提出 在多元数据分析中,近年来国内流行一种通过建立综合评价函数来对所有样品进行综合排名的方法。该方法是这样的:对 个原始变量 ,通过主成分分析,取前 个主成分 ,其方差分别为 ,以每个主成分 的贡献率 作为权数,构造综合评价函数 计算出每个样品的( )综合得分,然后依这个得分的大小对所有样品进行综合排名。对这种用线性组合的方式来综合各主成分的方法,笔者从未在国外的有关多元统计分析的文献中见过。该方法粗看起来似乎有一定道理且很有吸引力(似乎可以综合排名了),但仔细推敲之后就会发现这一方法是对主成分思想和方法的误解,是不科学的,没有什么理论和应用上的价值。该综合排名方法在我国的多元数据分析应用中已得到了比较普遍的误用,笔者曾在参考文献[1]中的253页上简略地谈到过这一问题,现觉得很有必要针对这一问题作一具体阐述,谈谈自己的观点,供大家参考和讨论。 二、主成分的基本思想 除了将主成分法用于聚类或回归分析或寻找变量之间的共线性关系等目的之外,主成分分析的一般目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分(综合变量),并保留绝大部分信息;(2)给出各主成分的具有实际背景