矢量空间模型中的文本相似性:比较研究-研究论文

时间:2024-06-29 21:50:13
【文件属性】:

文件名称:矢量空间模型中的文本相似性:比较研究-研究论文

文件大小:685KB

文件格式:PDF

更新时间:2024-06-29 21:50:13

text similarity vector

语义文本相似度的自动测量是自然语言处理中的一项重要任务。 在本文中,我们评估了不同向量空间模型执行此任务的性能。 我们解决了专利间相似性建模的现实问题,并比较了 TFIDF(和相关扩展)、主题模型(例如,潜在语义索引)和神经模型(例如,段落向量)。 与预期相反,文本嵌入方法增加的计算成本仅在以下情况下是合理的:1)目标文本被压缩; 2)相似度比较是微不足道的。 否则,TFIDF 在其他情况下表现出奇的好:特别是对于更长和更技术性的文本,或者在最近邻居之间进行更细粒度的区分。 出乎意料的是,对 TFIDF 方法的扩展,例如添加名词短语或增量计算术语权重,在我们的上下文中没有帮助。


网友评论