文件名称:indic_nlp_library:印度语言自然语言处理的资源和工具
文件大小:95KB
文件格式:ZIP
更新时间:2024-05-27 17:14:31
python natural-language-processing indian-languages Python
印度NLP库 印度NLP库的目标是建立基于Python的库,用于印度语中的普通文本处理和自然语言处理。 印度语言在脚本,语音,语言语法等方面有很多相似之处,并且该库试图为印度语言文本非常常用的工具集提供通用解决方案。 该库提供以下功能: 文字规范化 脚本信息 词标记化和去标记化 句子拆分 分词 音节化 脚本转换 罗马化 指示 音译 翻译 印度NLP库所需的数据资源托管在其他存储库中。 这些资源是某些模块所必需的。 您可以从项目下载。 如果您对印度语NLP资源感兴趣,则应检查中的指针。 先决条件 Python 3.x (对于Python 2.x版本,请检查标签PYTHON_2.7_FINAL_JAN_2019 。不再积极支持Python 2.x,但将尝试保持尽可能多的兼容性) 其他依赖项在setup.py中列出 配置 从pip安装: pip install indic-nlp-lib
【文件预览】:
indic_nlp_library-master
----contrib()
--------indic_scraper_project_sample.ipynb(22KB)
--------hindi_to_kannada_transliterator.py(2KB)
--------README.md(827B)
--------correct_moses_tokenizer.py(1KB)
----requirements.txt(59B)
----LICENSE(1KB)
----indicnlp()
--------script()
--------__init__.py(0B)
--------morph()
--------tokenize()
--------test()
--------cli()
--------normalize()
--------loader.py(1000B)
--------langinfo.py(11KB)
--------transliterate()
--------syllable()
--------common.py(2KB)
----setup.py(1KB)
----README.md(4KB)
----test_data()
--------morph()
--------tokenize()
--------transliterate.ipynb(10KB)
--------normalize()
----docs()
--------indicnlp.script.rst(513B)
--------make.bat(795B)
--------cmd.rst(127B)
--------conf.py(8KB)
--------indicnlp.cli.rst(193B)
--------indicnlp.transliterate.rst(803B)
--------indicnlp.pdf(37KB)
--------indicnlp.MD(4KB)
--------indicnlp.tokenize.rst(544B)
--------index.rst(426B)
--------Makefile(5KB)
--------indicnlp.normalize.rst(315B)
--------code.rst(123B)
--------indicnlp.syllable.rst(203B)
--------indicnlp.morph.rst(204B)
--------indicnlp.rst(722B)
--------modules.rst(56B)