文件名称:wikicorpora:从*构建语料库的工具
文件大小:57KB
文件格式:ZIP
更新时间:2024-07-11 11:37:03
Python
维基语料库 WikiCorpora 是一种从*构建语料库的工具。 WikiCorpora 可以下载给定语言的 Wikipedia 转储,创建所需大小的样本,构建带有标记术语的垂直文件,对每篇文章进行术语推断,编译语料库并通过对其进行测试。 如果您对最终结果感兴趣,请查看 。 用法 usage: wikicorpora.py [language] [size] [TASKS] corpus specification: language 2-letter code of language (ISO-639-1) size sample size specification sampling tasks: --create-sample create sample from first N artic
【文件预览】:
wikicorpora-master
----setup.py(715B)
----.gitignore(846B)
----environment.py(3KB)
----requirements.txt(121B)
----TODO(2KB)
----LICENSE(18KB)
----.gitmodules(84B)
----utils()
--------__init__.py(0B)
--------system_utils.py(461B)
--------wiki_utils.py(1KB)
--------language_utils.py(1KB)
--------downloader.py(2KB)
--------xml_utils.py(387B)
--------languages.json(2KB)
--------progressbar.py(1KB)
----configuration()
--------__init__.py(0B)
--------doubleconfiguration.py(2KB)
--------configuration.py(2KB)
----README.md(9KB)
----environment-config-default.yaml(307B)
----registry()
--------tagsets.py(893B)
--------__init__.py(0B)
--------registry.py(3KB)
----docs()
----wikicorpora.py(10KB)
----wikicorpus()
--------corpus-config.yaml(257B)
--------__init__.py(0B)
--------wikimarkupparser.py(4KB)
--------termstrie.py(3KB)
--------tests()
--------samplewikicorpus.py(8KB)
--------nlp.py(13KB)
--------wikiextractor.py(20KB)
--------wikicorpus.py(24KB)
--------verticaldocument.py(11KB)