jieba 分词

时间:2019-09-06 11:45:16
【文件属性】:

文件名称:jieba 分词

文件大小:7.05MB

文件格式:ZIP

更新时间:2019-09-06 11:45:16

jieba 分词

组件只提供jieba.cut 方法用于分词 cut方法接受两个输入参数:   第一个参数为需要分词的字符串   cut_all参数用来控制分词模式 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list


【文件预览】:
jieba-0.38
----test()
--------test_pos_no_hmm.py(5KB)
--------test_userdict.py(1KB)
--------test.py(5KB)
--------test_cut_for_search.py(5KB)
--------test_bug.py(209B)
--------test_tokenize_no_hmm.py(6KB)
--------test_whoosh_file.py(1KB)
--------test_change_dictpath.py(901B)
--------test_file.py(404B)
--------test_multithread.py(859B)
--------test_tokenize.py(6KB)
--------test_cutall.py(5KB)
--------test_whoosh_file_read.py(854B)
--------test_pos_file.py(424B)
--------test_pos.py(5KB)
--------test_no_hmm.py(5KB)
--------test_lock.py(1KB)
--------test_whoosh.py(2KB)
----jieba()
--------dict.txt(5.17MB)
--------finalseg()
--------__init__.py(19KB)
--------_compat.py(1KB)
--------__main__.py(2KB)
--------posseg()
--------analyse()
----PKG-INFO(3KB)
----setup.py(3KB)

网友评论