HuhuSeg:简单中文分割器,关键字提取器和其他示例

时间:2024-06-04 18:55:53
【文件属性】:

文件名称:HuhuSeg:简单中文分割器,关键字提取器和其他示例

文件大小:14.67MB

文件格式:ZIP

更新时间:2024-06-04 18:55:53

extraction segmentation chinese-text-segmentation mmseg keywords-extraction

HuhuSeg HuhuSeg是一个基于MMSEG[1]的四种消歧规则和最大匹配方式的简单中文分词器,只有数百行代码。 Simple Chinese segmentor based on the four ambiguity-resolving rules by MMSEG[1] and examples. 同时HuhuSeg实现了一个简单但是非常高效的词图生成方式,由HanLP[3]的启发而来。同时核心词典直接使用了jieba[2]的词频词典。 HuhuSeg implemented a simple but graceful words-gram generation enlightened by HanLP[3]. And the dictionary(including the words tag and frequency) was included from jieba[2].


【文件预览】:
HuhuSeg-master
----setup.py(1KB)
----src()
--------huhu_seg()
----LICENSE(34KB)
----README.md(37KB)
----tests()
--------test_file_seg.py(982B)
--------test_textrank.py(8KB)
--------test_hmm.py(1KB)
--------test_simhash.py(11KB)
--------test_tfidf.py(9KB)
--------test_trie.py(375B)
--------test.py(851B)
--------test_bow.py(11KB)
--------test_clustering.py(1KB)
--------msr_test.utf8(547KB)
----docs()
--------README.rst(24KB)

网友评论