wordmaker:在大文本中自动生成中文单词

时间:2024-07-31 04:41:15
【文件属性】:

文件名称:wordmaker:在大文本中自动生成中文单词

文件大小:429KB

文件格式:ZIP

更新时间:2024-07-31 04:41:15

c-plus-plus words C++

wordmaker 词语生成工具 通过词语组成的规律,自动从大文本当中学习得到文本当中的词语,而不再需要其它额外的信息。 很多分词库等都需要字典库,特别在一些专业的领域,需要得到很多的专业相关词语。而人工标注字典需要花很大的时间,所以希望有一个工具能够自动从文本中训练得到词语。分析某类人的用词特点,也可以有所应用。 重点说明 大家通过邮件与我讨论问题我一般都会回复,但请尽可能在项目中通过open issue的方式提交问题。这样不仅会让我更及时看到问题,还能给项目的其它人带来好处。相信方便你也能方便其它后来的朋友。若您是open心态的人,应该明白这样的好处。 项目已经搬迁至, 有问题请在此项目下open issue。 是一个非常好的C++社区,虽然我与上面的各路版主不熟悉,也没有时间在上面发帖讨论问题,但是相信他们各种都是非常open非常牛的精英,所以把项目移到他们名下会让项目变得更好。


【文件预览】:
wordmaker-master
----tests()
--------moyan_output.txt(119KB)
--------tfidf.py(1017B)
--------hong_output.txt(35KB)
--------sogo_output.txt(643KB)
----src()
--------hugemaker.cpp(24KB)
--------wordmaker.cpp(14KB)
--------marisa.h(422B)
--------cedar.cpp(6KB)
--------segword.cpp(16KB)
--------sample.cc(1KB)
--------cedar.h(27KB)
--------marisa()
--------CMakeLists.txt(540B)
----.gitignore(197B)
----CMakeLists.txt(281B)
----README.md(4KB)

网友评论