pystemmer:使用Snowball stemmers的Python提取库

时间:2024-06-14 12:07:59
【文件属性】:

文件名称:pystemmer:使用Snowball stemmers的Python提取库

文件大小:297KB

文件格式:ZIP

更新时间:2024-06-14 12:07:59

Python

皮斯泰默 什么是PyStemmer? PyStemmer是Snowball项目( )的词干算法的Python接口。 词干提取算法(或词干提取器)是一种从英语单词中删除较常见的词法和形变词结尾的过程。 它的主要用途是术语标准化过程的一部分,该过程通常在设置信息检索系统时完成。 词干分析器旨在将具有相同语言基本形式的单词混合在一起,以便可以将生成的“词干”视为代表具有该基本形式的所有单词。 词干可用于使搜索更加全面。 例如,词干可以确保搜索“汽车”时也会找到仅包含“汽车”的所有文档。 Snowball是一种小的字符串处理语言,旨在创建用于信息检索的词干算法。 它也是开发良好的词干算法基础集的项目的名称。 PyStemmer对雪球算法使用“ libstemmer_c” C接口,该接口由雪球项目本身提供。 该库未经修改,但包含在PyStemmer发行版中。 如果您希望将PyStemmer


【文件预览】:
pystemmer-master
----MANIFEST.in(218B)
----README.rst(3KB)
----AUTHORS(163B)
----src()
--------Stemmer.pyx(8KB)
----.travis.yml(342B)
----tox.ini(178B)
----LICENSE(5KB)
----HACKING(552B)
----benchmark.py(859B)
----setup.py(7KB)
----makedist.sh(270B)
----tarballfetcher.py(2KB)
----sampledata()
--------puttydoc.txt(379KB)
--------englishvoc.txt(248KB)
----docs()
--------quickstart.txt(1KB)
--------quickstart_python3.txt(1KB)
----tests()
--------en_voc.txt(248KB)
--------test_pystemmer.py(3KB)
----.gitignore(103B)
----runtests.py(368B)
----ChangeLog(2KB)

网友评论