Python-textsimilarity用TF特征向量和simhash指纹计算中文文本的相似度

时间:2022-08-29 23:50:17
【文件属性】:

文件名称:Python-textsimilarity用TF特征向量和simhash指纹计算中文文本的相似度

文件大小:21KB

文件格式:ZIP

更新时间:2022-08-29 23:50:17

Python开发-自然语言处理

text-similarity:用TF特征向量和simhash指纹计算中文文本的相似度


【文件预览】:
text-similarity-master
----.gitignore(544B)
----data()
--------stopwords.txt(11KB)
----src()
--------features.py(2KB)
--------__init__.py(25B)
--------launch.py(2KB)
--------Utils.py(3KB)
--------isSimilar.py(3KB)
--------webcontent_filter.sh(268B)
--------DocUtils.py(1KB)
--------DictUtils.py(1KB)
--------DictBuilder.py(2KB)
--------preprocess.py(1KB)
--------tokens.py(2KB)
--------simhash_imp.py(6KB)
--------launch_incre.py(4KB)
----README.md(4KB)
----test()
--------test_token.py(1KB)

网友评论

  • 2015年的代码,基于python2,如果想用的话需要大幅度的修改。