论文研究-基于改进的聚类平均信息量文本数据挖掘算法研究.pdf

时间:2022-08-11 12:12:45
【文件属性】:

文件名称:论文研究-基于改进的聚类平均信息量文本数据挖掘算法研究.pdf

文件大小:267KB

文件格式:PDF

更新时间:2022-08-11 12:12:45

文本分类,层次聚类,信息量,仿真

研究了文本挖掘精确度问题。针对传统的聚类文本分类算法在文本分类中存在高维性和稀疏性,特别是同义词和近义词难以进行分类,使得分类的精确度低等问题,提出了一种聚类平均信息量文本分类算法。算法从信息论观点分析文本空间向量,将文本看做一个信息源,通过求得该信息源的各个特征的次数来积累文本信息量,以领域特征明显的词和短语作为聚类对象,然后采用层次平均信息量进行特征提取。仿真实验结果表明,提出的算法能够有效地提取文本信息,提高了文本分类的精度,具有一定的实际应用价值。


网友评论