特征选择( Feature selection)是一个很有实用价值的技术,本质上是一种为数据挖掘消除噪声的数据)。而我们对某件事物进行判断时,我们会根据以往的经验根据某些信息而不是全部的信息进行判断。特别的计算机在面对类似的问题却无法根据已有的经验去选择最有效的信息,而大量无效的信息对于计算机来说就是噪声。反而会影响计算机的判断结果,如果按照前面的例子我们可以根据人工特征选择,可是对于计算机就需要专业的技术进行分析。
1. 特征选择的作用:降低计算开销和提升分类性能。既可以减少数据量,节省处理事件,减轻数据处理中的噪声影响,又可以提升信息处理系统的性能。
2. 良好的特征的几个特点:可区分性、可靠性、独立性、数量少。
3. 特征选择的基本分类:Filter类,Wrapper类,Embedding类。
4. 特征子集生成的方法有:穷举法、启发法、随机法。其中穷举搜索方法有:BFS,DFS,分支限界、定向搜索、最优优先搜索。启发式搜索:序列前向搜索、序列后向搜索、双向搜索、增L去R、序列浮动选择、决策树。随机选择算法:模拟退火、随即序列选择、遗传算法。
5. 常见的特征提取方法有:主成分分析、LDA(线性奇异分析)、独立分量分析(ICA)、神经网络、粗糙集约束等。而比较新的方法有:非线性降维、流行学习等。
6. 特征选择的方法过程:(1) 产生过程 (2) 评价函数 (3) 停止准则 (4) 验证过程。
7. 评价函数有:(1) 相关性 (2)距离 (3)信息增益 (4) 一致性 (5) 分类错误率 。其中筛选器由于与分类算法无关,因此其在不同的分类算法之间的推广能力很强,计算量也较小。
注:使用决策树在根节点之前选择的分类特征值和过程也可以选择作为特征值选择的过程的。
参考文献:
1. 特征值选择:http://www.cnblogs.com/xiangshancuizhu/archive/2012/03/12/2392360.html
2. 基于libsvm的特征值选择工具:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/