结巴分词、词性标注以及停用词过滤

时间：2019-11-21 16:38:58

【文件属性】：

文件名称：结巴分词、词性标注以及停用词过滤

文件大小：7.15MB

文件格式：ZIP

更新时间：2019-11-21 16:38:58

python jieba

因为比赛需要用到结巴分词，所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。

立即下载

【文件预览】：
test
----pos.txt(52KB)
----test.py(2KB)
----poss.txt(64KB)
----jieba()
--------__init__.pyc(14KB)
--------__init__.py(14KB)
--------_compat.py(775B)
--------finalseg()
--------posseg()
--------dict.txt(5.17MB)
--------__main__.py(2KB)
--------_compat.pyc(1KB)
--------analyse()
----readme.txt(34B)
----stopword.txt(5KB)

网友评论

不错可以使用
应该可以解决我想进行中文词性标注，过滤需要
很不错的东西
亲测可用，encode-decode下编码格式，就可以用来分词过滤了，感谢分享
不错可以使用
正好要用到，下来参考一下
stopword编码问题，先用notepad++编码转为UTF-8无BOM编码，测试的话，加入 import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 再输出就没问题了
我也是遇到了编码问题，不知道该怎样改。有解决的请留下言，方便后来人，谢谢~
写得很好，学习了，适当地根据编码进行修改，例如utf-8
感激！不过我遇到了编码问题应该解决了就能用。先学着~



秒客网

结巴分词、词性标注以及停用词过滤

网友评论

相关文章