文件名称:amsterdam-embedding-model:阿姆斯特丹嵌入模型
文件大小:521KB
文件格式:ZIP
更新时间:2024-04-26 21:19:27
JupyterNotebook
阿姆斯特丹嵌入模型 对于内在评估:'data / raw / question-words.txt':源自: : AEM 此回购尝试建立“阿姆斯特丹嵌入模型”(AEM):一种针对荷兰新闻内容训练的新闻领域特定词嵌入模型。 阿姆斯特丹嵌入模型(AEM)语料库 该语料库包含独特的句子,这些句子来源于在印刷媒体和在线资源中出现的总共7441914条荷兰新闻文章。 新闻文章来自INCA数据库,时间范围为2000-01-01-2017-12-31。 具体而言,新闻文章出现在以下来源中: 广告(打印)871156.0广告(www)113671.0 anp 2048369.0 bd(www)14781.0 bndestem(www)15262.0 destentor(www)14620.0 ed(www)15754.0 fd(打印)452967.0 frieschdagblad(www)26
【文件预览】:
amsterdam-embedding-model-master
----report()
--------figures()
----.ipynb_checkpoints()
--------Untitled-checkpoint.ipynb(82KB)
----get-figures-intrinsic.ipynb(132KB)
----run_classifier.py(3KB)
----output()
--------intrinsic_output.png(40KB)
--------intrinsic_output_2.png(42KB)
----get-results-downstream.ipynb(276KB)
----src()
--------draft()
--------lib()
--------analysis()
--------data-processing()
----helpers()
--------get_max_sentence.py(364B)
--------get_numberofarticles.py(729B)
--------make_combinations.ipynb(1KB)
--------Vliegenthart_data_prep.ipynb(33KB)
----corpus()
--------uniekezinnen_2012-01-01_2014-12-31_numberofarticles.json(585B)
--------uniekezinnen_2015-01-01_2017-12-31_numberofarticles.json(1KB)
--------uniekezinnen_2006-01-01_2011-12-31_numberofarticles.json(518B)
--------uniekezinnen_2000-01-01_2005-12-31_numberofarticles.json(311B)
----README.md(5KB)
----model-training()
--------make_tmpfileuniekezinnen.py(3KB)
--------train_embeddingmodels_loop.py(2KB)
----data()
--------intermediate()
--------.DS_Store(12KB)
--------raw()
--------tmp()
----get_results_classifier.py(5KB)
----.gitignore(2KB)
----run_intrinsic_evaluation.py(2KB)
----commands.txt(2KB)