simhash算法库simhash.zip

时间:2022-08-04 23:17:57
【文件属性】:

文件名称:simhash算法库simhash.zip

文件大小:4.37MB

文件格式:ZIP

更新时间:2022-08-04 23:17:57

开源项目

专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 CppJieba 作为分词器和关键词抽取器 使用 jenkins 作为 hash 函数 hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。 依赖 g (version >= 4.1 recommended), or clang . 用法 mkdir build cd build cmake .. make 演示 ./bin/simhash.demo 结果如下: 文本:"我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上总经理,出任CEO,走上人生巅峰。" 关键词序列是: ["蓝翔:11.7392", "CEO:11.7392", "升职:10.8562", "加薪:10.6426", "手扶拖拉机:10.0089"] simhash值是: 17831459094038722629 100010110110和110001110011 simhash值的相等判断如下: 海明距离阈值默认设置为3,则isEqual结果为:0 海明距离阈值默认设置为5,则isEqual结果为:1 详情请看 src/main.cpp 客服 i@yanyiwu.com 标签:simhash


【文件预览】:
simhash-master
----dict()
--------jieba.dict.utf8(4.84MB)
--------idf.utf8(5.72MB)
--------hmm_model.utf8(508KB)
--------stop_words.utf8(9KB)
----CMakeLists.txt(434B)
----deps()
--------limonp()
--------cppjieba()
----.travis.yml(275B)
----example()
--------CMakeLists.txt(81B)
--------demo.cpp(1KB)
----README_EN.md(2KB)
----test()
--------testdata()
--------load_test.cpp(820B)
--------CMakeLists.txt(123B)
--------unittest()
----README.md(2KB)
----ChangeLog.md(1016B)
----.gitignore(67B)
----include()
--------simhash()

网友评论