多重检验加权融合的短文本相似度计算方法

时间:2023-03-30 10:12:00
【文件属性】:

文件名称:多重检验加权融合的短文本相似度计算方法

文件大小:758KB

文件格式:PDF

更新时间:2023-03-30 10:12:00

文本相似度 多重检验 加权融合

针对传统的相似度计算方法只考虑文本结构特征或者语义信息导致文本相似度计算质量较低等问题,结合短文本特征稀疏的特性,提出一种多重检验加权融合短文本相似度计算方法。该方法使用编辑距离、考虑词频的语义信息及Word2vec-LSTM 模型三种方法计算相似度,对满足任意两种阈值的文本进行加权因子线性融合。通过多重阈值检验,避免了层层检验和无检验方法因一种相似度值过大或过小导致加权相似度值异常问题,通过加权融合计算短文本相似度,使结果更加均匀化和合理化。实验结果表明,多重检验加权融合计算方法相比层层检验和无检验融合方法在准确率上平均提高了16.01%和7.39%,F1 值为70.21%,相比传统的相似度算法在召回率上都有相应提升,验证了提出方法的准确性。


网友评论