jieba-master

时间:2021-04-07 12:42:36
【文件属性】:

文件名称:jieba-master

文件大小:11.83MB

文件格式:ZIP

更新时间:2021-04-07 12:42:36

中文分词

中文分词工具jieba, 一个python实现的分词库,对中文有着很强大的分词能力。支持三种分词模式: a. 精确模式,试图将句子最精确地切开,适合文本分析; b. 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c. 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。


【文件预览】:
jieba-master
----extra_dict()
--------stop_words.txt(222B)
--------dict.txt.big(8.19MB)
--------idf.txt.big(3.9MB)
--------dict.txt.small(1.48MB)
----MANIFEST.in(32B)
----.gitattributes(483B)
----Changelog(7KB)
----LICENSE(1KB)
----test()
--------test_pos.py(5KB)
--------test_change_dictpath.py(873B)
--------parallel()
--------test_tokenize_no_hmm.py(5KB)
--------test_bug.py(199B)
--------extract_tags_stop_words.py(658B)
--------test_pos_no_hmm.py(5KB)
--------test_lock.py(1KB)
--------test.txt(118B)
--------test.py(5KB)
--------test_file.py(383B)
--------extract_tags_idfpath.py(594B)
--------jieba_test.py(9KB)
--------test_pos_file.py(403B)
--------foobar.txt(11B)
--------jiebacmd.py(461B)
--------test_whoosh.py(2KB)
--------demo.py(3KB)
--------test_tokenize.py(5KB)
--------test_userdict.py(1KB)
--------lyric.txt(721B)
--------test_cut_for_search.py(5KB)
--------userdict.txt(151B)
--------extract_tags_with_weight.py(895B)
--------extract_tags.py(528B)
--------test_cutall.py(5KB)
--------extract_topic.py(1KB)
--------test_whoosh_file_read.py(826B)
--------test_multithread.py(830B)
--------test_no_hmm.py(5KB)
--------test_whoosh_file.py(1KB)
----setup.py(2KB)
----README.md(28KB)
----jieba()
--------_compat.py(1KB)
--------analyse()
--------dict.txt(4.84MB)
--------__init__.py(18KB)
--------__main__.py(2KB)
--------posseg()
--------finalseg()
----.gitignore(2KB)

网友评论