文件名称:Python-textsimilarity用TF特征向量和simhash指纹计算中文文本的相似度
文件大小:21KB
文件格式:ZIP
更新时间:2022-08-29 23:50:17
Python开发-自然语言处理
text-similarity:用TF特征向量和simhash指纹计算中文文本的相似度
【文件预览】:
text-similarity-master
----.gitignore(544B)
----data()
--------stopwords.txt(11KB)
----src()
--------features.py(2KB)
--------__init__.py(25B)
--------launch.py(2KB)
--------Utils.py(3KB)
--------isSimilar.py(3KB)
--------webcontent_filter.sh(268B)
--------DocUtils.py(1KB)
--------DictUtils.py(1KB)
--------DictBuilder.py(2KB)
--------preprocess.py(1KB)
--------tokens.py(2KB)
--------simhash_imp.py(6KB)
--------launch_incre.py(4KB)
----README.md(4KB)
----test()
--------test_token.py(1KB)