文件名称:论文研究-基于VSM的文本相似度计算的研究.pdf
文件大小:34KB
文件格式:PDF
更新时间:2022-08-11 14:18:16
文本相似度,特征选择,词频—逆文档频率法,向量空间模型
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TDIDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TDIDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。