PCA降维与特征选取的区别

时间:2024-04-02 09:22:48

1.概念简介
PCA是指 Principal Components Analysis,译为主要成分分析。用于减少数据集的维度,同时保持数据集中使方差贡献最大的特征。改变了原来特征的形式。
特征选取是从包含多个特征的数据集中挑选出几个特征作为实际使用的数据集,用于训练模型。没有改变特征的形式。

2.问题背景
在实际的问题中,数据集中的特征可能过多。比如,30*30的一张图片的特征会有900个,房价预测问题中的数据集会有十几种特征。总之,这些数据集都包含了太多的特征。如果对于特征不加筛选就进行训练,可能导致模型预测效果不好,产生过拟合或者训练时间过长的问题。所以,希望有一种算法可以挑选出合适的、主要的特征——PCA或特征选择。重点内容

3.PCA细节分析
①如何减少维度,保持数据集中方差贡献最大的特征?
通过坐标变化,将原数据映射到新的坐标系统中,使映射后的第一个坐标上的方差最大(第一主要成分),第二坐标上的方差第二大(第二主要成分),以此类推。

②算法步骤
1.构建协方差矩阵;
PCA降维与特征选取的区别

PCA降维与特征选取的区别
对矩阵Y求协方差,形成协方差矩阵。

2.求协方差矩阵的特征值和特征向量;
3。将特征值从大到小排序,对应的特征向量就是第一主要成分,第二主要成分…..

PCA降维与特征选取的区别

注:图像参考自小象学院
所写内容如有错误,请批评指正!