文件名称:ciseau:在Python中标记和清理字符串
文件大小:18KB
文件格式:ZIP
更新时间:2024-02-27 08:25:04
python natural-language-processing xml text tokenizer
塞绍 Python中的单词和句子标记化。 用法 使用此程序包可根据句子和单词的边界拆分字符串。 例如,简单地将字符串分解为令牌: tokenize("Joey was a great sailor.") #=> ["Joey ", "was ", "a ", "great ", "sailor ", "."] 还可以检测句子边界: sent_tokenize("Cat sat mat. Cat's named Cool.", keep_whitespace=True) #=> [["Cat ", "sat ", "mat", ". "], ["Cat ", "'s ", "named ",
【文件预览】:
ciseau-master
----MANIFEST.in(48B)
----.travis.yml(353B)
----tests()
--------test_tokenization.py(15KB)
----setup.py(1004B)
----LICENSE.md(1KB)
----.gitignore(633B)
----README.md(1KB)
----ciseau()
--------constants.py(2KB)
--------regular_expressions.py(2KB)
--------quoted_expressions.py(5KB)
--------sentence_tokenizer.py(4KB)
--------__init__.py(489B)
--------wiki_markup_processing.py(7KB)
--------word_tokenizer.py(9KB)