stemtokstop:Stemmer + Tokenizer + Stopper,用NLTK让生活更轻松

时间:2021-07-01 18:35:50
【文件属性】:
文件名称:stemtokstop:Stemmer + Tokenizer + Stopper,用NLTK让生活更轻松
文件大小:21KB
文件格式:ZIP
更新时间:2021-07-01 18:35:50
Python 自述文件 stemtokstop = 词干分析器 + 分词器 + 删除停用词。 没什么特别的,只是一个简单的用 Flask 包裹的 NLTK 应用。 安装 $ pip install nltk $ pip install snowballstemmer # 1.2.0 supports Turkish $ python >>> import nltk >>> nltk.download() # And download all >>> ^D $ python stemtokstop.py 对于日语词干分析器,我选择 Masato Hagiwara 的 [TinySegmenter] ( )。 它适用于 BSD 许可证,所以我在这里保留了一份副本。 如果您想获得更精确的日语结果,请安装 [MeCab] ( )。 仅将其设为 UTF-8。 stemtokstop 将使用 MeCab
【文件预览】:
stemtokstop-master
----.gitignore(689B)
----stemtokstop.py(5KB)
----tinysegmenter.py(22KB)
----mecab_tokenizer.py(394B)
----tiny_tokenizer.py(373B)
----extract_ja_stopwords.py(442B)
----LICENSE(11KB)
----README.md(2KB)
----ja_stopword.txt(4KB)
----test.py(5KB)

网友评论