文件名称:stopwords_zh:中文停用词
文件大小:5KB
文件格式:ZIP
更新时间:2024-07-05 02:44:11
stopwords_zh 中文停用词:收集中文停用词,只为去除常见的无用词。 用 可以用于等中文文本分词,只需比较单词是否在列表中即可。 Python代码: #! /usr/bin/env python # encoding: utf-8 import codecs import jieba if __name__ == "__main__": str_in = "小明硕士毕业于中国科学院计算所,后在日本京都大学深造" stopwords = codecs.open('stopwords', 'r', 'utf-8').read().split(',') seg_list = jieba.cut_for_search(str_in) for seg in seg_list: if seg not in stopwords: pr
【文件预览】:
stopwords_zh-master
----LICENSE(11KB)
----README.md(750B)
----.gitignore(702B)