文件名称:similar-sentences-local:与similar-sentences-mapreduce相同的问题,但只是在python中完成
文件大小:4KB
文件格式:ZIP
更新时间:2024-07-28 12:34:57
Python
同样的问题: 你的任务是快速找到词级编辑距离最多为 1 的句子对的数量。 两个句子 S1 和 S2 编辑距离为 1 如果 S1 可以通过以下方式转换为 S2:添加、删除或替换一个字。 例如,考虑以下每个字母代表一个单词的句子: • S1: ABCD • S2: ABXD • S3: ABC • S4: ABXC 然后对以下句子对的单词编辑距离为 1 或更小: (S1, S2 ), (S1, S3), (S2, S4), (S3, S4)。 输入数据有 9,397,023 个句子,每个句子由一个新行分隔,句子 id 位于行首。 zip 压缩文件大小约为 500MB,位于此处。 输入数据中的所有句子的长度至少为 10 个单词。 可以使用一种直接的 LSH 方法(如课堂上教授的 jaccard 相似性方法)来解决这个问题,但它不一定是更快的方法。 解决方案: 尝试使用 Java 但无济于
【文件预览】:
similar-sentences-local-master
----sent.py(4KB)
----README.md(6KB)