wikidata-munger:低资源地名录建设等

时间:2021-04-01 10:22:02
【文件属性】:
文件名称:wikidata-munger:低资源地名录建设等
文件大小:158KB
文件格式:ZIP
更新时间:2021-04-01 10:22:02
JupyterNotebook Wikidata地名词典生成 该存储库为存储为MongoDB数据库的Wikidata转储实现了摄取和查询功能。 示例:获取所有使用非洲语言命名的ORG 可以在data/african-languages.txt找到最常用的非洲语言列表。 我们可以将该列表与scrape_language_table.py一起使用,以获取非洲语言*的列表: % python scrape_language_table.py --african-only --abbrev-only | tr '\n' ',' | sed "s/,$//g" sw,af,mg,am,yo,ln,wo,ig,kg,so,ha,sn,om,ti,zu,rw,xh,ts,ak,ny,lg,rn,nso,ve,tn,aa 我们可以将其保存到环境变量AFRICAN_LANGS ,并在对wikidata_dump_translit
【文件预览】:
wikidata-munger-master
----.gitignore(26B)
----separate_by_language.py(1KB)
----create_matrix.py(2KB)
----wikidata_subclasses.py(1KB)
----compare_am_ti.py(3KB)
----per_lang_counts.py(695B)
----data()
--------purity_scores_per_language.csv(5KB)
--------count_per_lang_wfullang.csv(586B)
--------all-african-languages.json(938B)
--------african-languages.txt(303B)
--------count_per_lang.csv(19KB)
--------non-african-languages.txt(41B)
--------am_ti_kept_ids.txt(31KB)
--------per_language_counts.jsonl(21KB)
--------lang2abbrev.csv(121B)
----scrape_language_table.py(2KB)
----final_resource_dump.sh(1KB)
----wikidata_bulk_insert_decompressed.py(2KB)
----insert_custom_metadata.py(3KB)
----african_languages_dump_020521.sh(702B)
----deduplicate.py(4KB)
----notebooks()
--------visualizations.ipynb(120KB)
--------.ipynb_checkpoints()
--------wikidata_helpers.py(22B)
----wikidata_helpers.py(12KB)
----README.md(4KB)
----african_languages_dump_020221.sh(563B)
----wikidata_dump_transliterations.py(5KB)
----wikidata_stream.py(2KB)
----count_documents_by_lang_id.py(5KB)
----am_ti_per_dump_032421.sh(872B)
----bulk_insert_decompressed.sh(216B)
----create_instance_of.js(802B)
----create_index.py(682B)
----wikidata_bulk_insert.py(1KB)
----mypy.ini(37B)

网友评论