文件名称:match:在原始的,未标记的,通常是凌乱的文本中匹配标记化的单词和短语
文件大小:26KB
文件格式:ZIP
更新时间:2024-06-13 21:17:58
Python
比赛 Match模块的目的是从原始的未标记化源中获取已清理的标记化字符串的偏移量(以及这些偏移量之间的字符串,用于调试)。 您可能会说:“大不了”,但是如果原始文本足够凌乱,更不用说Unicode字符泛滥了,这实际上是一项艰巨的任务。 考虑一些存储在变量original_text中的文本,例如: I am writing a letter ! Sometimes,I forget to put spaces (and do weird stuff with punctuation) ? J'aurai une pomme, s'il vous plâit ! 这将/应该/可能被正确地标记为: [[ 'I' , 'am' , 'writing' , 'a' , 'letter' , '!' ], [ 'Sometimes' , ',' , 'I' , 'forget'
【文件预览】:
match-master
----build.sh(94B)
----match()
--------__init__.py(56B)
--------README.md(6KB)
--------Match.py(8KB)
----README.rst(3KB)
----test_match.py(40KB)
----requirements.txt(27B)
----.travis.yml(212B)
----LICENSE(11KB)
----setup.py(1KB)
----README.md(3KB)
----conda-recipe()
--------meta.yaml(820B)
----.gitignore(26B)