similarity-join

时间:2021-06-29 08:57:46
【文件属性】:
文件名称:similarity-join
文件大小:8KB
文件格式:ZIP
更新时间:2021-06-29 08:57:46
Python 相似连接 该包包含用于执行(内存中)相似性连接(即列表之间的)的模块。 相似性联接在列表中查找相似的记录。 给定两个字符串列表(称为记录)R 和 S,相似性连接将为 R 中的每个记录查找 S 中相似的所有记录。 相似性由距离度量定义。 指标的选择是特定于用例的。 该包目前包含两个模块。 余弦连接 该模块使用余弦相似度作为距离度量进行近似字符串匹配。 该模块带有一个近似结果的选项。 近似大大减少了时间和记忆食物印迹。 该模块创建了变得非常大的数据集的中间表示。 你的数据对于这个模块来说太大了吗? 余弦连接可以在 SQL [2] 中实现。 三连 该模块允许在受相似性约束(编辑距离)约束的两组字符串之间进行连接。 所实现的算法受到 [1] 的启发。 请参阅以获取文档。 参考书目 [1] - Trie-Join:具有编辑距离约束的高效基于 Trie 的字符串相似性连接; 王建南,冯建华,李
【文件预览】:
similarity-join-master
----MANIFEST.in(54B)
----CHANGES.txt(152B)
----LICENSE(1KB)
----setup.cfg(40B)
----simjoin()
--------trie.py(7KB)
--------test_trie.py(675B)
--------util.py(3KB)
--------__init__.py(0B)
--------cosinejoin.py(5KB)
----setup.py(530B)
----README.md(1KB)

网友评论