wiktextract:wiktionary转储文件解析器和多语言数据提取器

时间:2024-04-09 12:21:56
【文件属性】:

文件名称:wiktextract:wiktionary转储文件解析器和多语言数据提取器

文件大小:2.22MB

文件格式:ZIP

更新时间:2024-04-09 12:21:56

multilingual parser dictionary extractor wiktionary

Wiktextract 这是一个实用程序和Python软件包,用于从Wiktionary提取数据。 1.99.3版现已在pypi上提供,并且可以使用pip(Python3)进行安装。可以将其视为2.0.0的测试版。 该版本无法解决所有问题。尤其是链接(hypernyms,hypernym等)和歧义消除存在我推迟发布的问题。此发行版仍是一个重大改进,应该更好地处理非英语语言,并且更易于维护。从技术上讲,这几乎是完全重写,并且现在应处理几乎所有模板以及Lua模块生成的文本和编码。 请在github上报告问题,我将尽力尽快解决。 当前提取的版本可通过以下浏览和下载: : 。我计划在此位置维护数据的自动更新版本。对于大多数人来说,获取提取的Wiktionary数据的首选方法是仅从网站上获取数据。 注意:在现代的24核台式机上,从英语Wiktionary提取所有语言的所有数据大约需要7个小时。


【文件预览】:
wiktextract-master
----push-pypi(253B)
----analyze.py(16KB)
----requirements.txt(42B)
----LICENSE(1KB)
----setup.py(1KB)
----README.md(28KB)
----Makefile(373B)
----wiktwords(13KB)
----TODO(14KB)
----tests()
--------talo.txt(6KB)
--------test-pages-articles.xml.bz2(2.12MB)
--------testcov.conf(120B)
--------test_clean.py(4KB)
--------animal.txt(17KB)
--------大切.txt(1KB)
--------test_desc.py(5KB)
--------test_long.py(3KB)
----wiktextract()
--------places.py(7KB)
--------config.py(4KB)
--------page.py(92KB)
--------form_of.py(38KB)
--------parts_of_speech.py(9KB)
--------__init__.py(465B)
--------wiktionary.py(6KB)
--------clean.py(4KB)
--------disambiguate.py(3KB)
--------head_map.py(5KB)
--------form_descriptions.py(90KB)
--------unsupported_titles.py(3KB)
--------wikihtml.py(8KB)
--------datautils.py(3KB)
----.gitignore(95B)

网友评论