文件名称:Text-Similarity:在路透数据集上使用minhashing和Jaccard距离进行文本相似度计算
文件大小:64KB
文件格式:ZIP
更新时间:2024-06-02 19:16:15
text-similarity jaccard-similarity minhash-lsh-algorithm R
文件相似度 介绍 该项目的目的是通过实施多种方法来处理商品的数据集,以衡量商品之间的相似性。 接受检查的数据集是Reuters-21578集合。 该项目是在R开发的。 文档之间的相似性可以定义为它们共同成分的百分比。 这种计算最常用的方法之一是: 步骤1-重叠:将每个文档分解成其结构元素(重叠式)。 在此实现中,每个瓦片包含k个单词。 第2步-Minhashing:为了提高算法的性能,以保留相似性的方式提取了带状疱疹(签名)的代表性变换。 步骤3-LSH:适当使用签名将文档映射到存储桶中,以便相似的文档更有可能随同一个存储桶一起着陆。 第4步-文档比较:相似度的计算基于以下假设:只有相同存储桶中的文档可能彼此相似。 因此,仅针对最近的邻居对执行计算。 Jaccard相似度是用于文档比较的常用度量,即两个不同文档(交集)之间的共享组件与它们的总独立数量(联合)的比率。 可以使用带
【文件预览】:
Text-Similarity-master
----images()
--------image1.png(56KB)
----README.md(8KB)
----reuters_text_sim.R(20KB)