结巴分词、词性标注以及停用词过滤

时间:2019-11-21 16:38:58
【文件属性】:

文件名称:结巴分词、词性标注以及停用词过滤

文件大小:7.15MB

文件格式:ZIP

更新时间:2019-11-21 16:38:58

python jieba

因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。


【文件预览】:
test
----pos.txt(52KB)
----test.py(2KB)
----poss.txt(64KB)
----jieba()
--------__init__.pyc(14KB)
--------__init__.py(14KB)
--------_compat.py(775B)
--------finalseg()
--------posseg()
--------dict.txt(5.17MB)
--------__main__.py(2KB)
--------_compat.pyc(1KB)
--------analyse()
----readme.txt(34B)
----stopword.txt(5KB)

网友评论

  • 不错可以使用
  • 应该可以解决我想进行中文词性标注,过滤需要
  • 很不错的东西
  • 亲测可用,encode-decode下编码格式,就可以用来分词过滤了,感谢分享
  • 不错可以使用
  • 正好要用到,下来参考一下
  • stopword编码问题,先用notepad++编码转为UTF-8无BOM编码,测试的话,加入 import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 再输出就没问题了
  • 我也是遇到了编码问题,不知道该怎样改。有解决的请留下言,方便后来人,谢谢~
  • 写得很好,学习了,适当地根据编码进行修改,例如utf-8
  • 感激!不过我遇到了编码问题 应该解决了就能用。先学着~