文件名称:论文研究-基于词汇语义信息的文本相似度计算.pdf
文件大小:1.07MB
文件格式:PDF
更新时间:2022-08-11 15:28:39
文本相似度,词向量,词频—逆文档频率
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,提出了一种新的计算方法。该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在F1值和准确度评价标准上优于其他方法。