几种文本特征降维方法的比较分析

时间:2014-09-23 10:02:39
【文件属性】:

文件名称:几种文本特征降维方法的比较分析

文件大小:39KB

文件格式:KDH

更新时间:2014-09-23 10:02:39

文本挖掘 降维 随机映射 非负矩阵分解 概念索引

文本挖掘中采用向量空间模型(VSM) 来表达文本特征, 表现出巨大的维数, 从而导致处理过程计算复杂, 为此, 需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA) 、概念索引(CI) 、非负矩阵分解(NMF) 和随机映射(RP)是几种有效的降维方法, 在分析降维空间的含义和计算复杂度后, 通过文本聚类实验比较和分析了这几种降维方法的差异, 实验表明, 这些方法不仅可以对文本特征空间作有效的降维处理, 还能在不同程度上凸现文本和词条之间的语义关系, 从而提高文本挖掘的效率和准确率。


网友评论

  • Text mining 主要研究的方向有document selection,document ranking,Text indexing techniques,document clustering(需要先降维度,再用传统的数据挖掘算法) document classification (传统的数据挖掘分类方法可以应用在高维度的条件下,如贝叶斯分类算法), information extraction,trend analysis,association analysis,Dimensionality reduction for Text 目前有许多研究都是基于向量空间模型(VSM)的文本聚