GermanWordEmbeddings:获取和预处理德语语料库,使用word2vec(gensim)训练模型并使用生成的测试集对其进行评估的工具包

时间:2024-02-24 12:18:54
【文件属性】:

文件名称:GermanWordEmbeddings:获取和预处理德语语料库,使用word2vec(gensim)训练模型并使用生成的测试集对其进行评估的工具包

文件大小:390KB

文件格式:ZIP

更新时间:2024-02-24 12:18:54

nlp training natural-language-processing deep-neural-networks deep-learning

关于在英语语料库上进行词嵌入训练的研究很多。 该工具包通过在德语语料库上应用深度学习,以训练和评估德语模型。 有关项目,评估结果和的概述可在或直接在此存储库中找到。 该项目是根据发布的。 开始吧 确保已安装Python 3以及以下库: pip install gensim nltk matplotlib numpy scipy scikit-learn 现在,您可以下载并在您的Shell中执行它,以自动下载此工具包和相应的语料库文件并进行模型训练和评估。 请注意,这可能需要大量时间! 您也可以克隆此存储库,并使用我已经进行评估和可视化。 如果您只想查看不同Python脚本的工作方式,


【文件预览】:
GermanWordEmbeddings-master
----.github()
--------FUNDING.yml(82B)
----evaluation.py(14KB)
----src()
--------doesntfit.txt(1KB)
--------opposite.txt(382B)
--------verbs.txt(4KB)
--------nouns.txt(1KB)
--------adjectives.txt(3KB)
--------bestmatch.txt(1KB)
----preprocessing.py(4KB)
----code()
--------evaluation.ipynb(2KB)
--------preprocessing.ipynb(9KB)
--------training.ipynb(5KB)
--------pca.ipynb(200KB)
----requirements.txt(111B)
----word2vec_german.sh(3KB)
----visualize.py(4KB)
----training.py(2KB)
----LICENSE(1KB)
----WikiExtractor.py(86KB)
----README.md(12KB)
----tfvisualize.py(2KB)
----vocabulary.py(1016B)
----data()
--------old.syntactic_questions.txt(315KB)
--------syntactic.questions(314KB)
--------semantic_bm.questions(17KB)
--------semantic_df.questions.nouml(3KB)
--------syntactic.questions.nouml(314KB)
--------semantic_op.questions(8KB)
--------semantic_op.questions.nouml(8KB)
--------semantic_df.questions(3KB)
--------semantic_bm.questions.nouml(17KB)
----.gitignore(856B)
----result()
--------corpus-psub_CB-52-20.model.result(4KB)
--------corpus-psub_SG-52-15.model.result(4KB)
--------corpus-psub_SG-52-5-R10.model.result(4KB)
--------corpus-psub_SG-52-5.model.result(4KB)
--------corpus-psub_SG-52-5-R50.model.result(4KB)
--------corpus-psub_SG-52-5-NOHS.model.result(4KB)
--------corpus-psub_SG-100-5-R10.model.result(4KB)
--------corpus-psub_SG-52-20.model.result(4KB)
--------SG-52-5-530M.model.result(4KB)
--------SG-52-5-580M.model.result(4KB)
--------corpus_SG-52-5.model.result(4KB)
--------corpus-psub_SG-52-5-N20.model.result(4KB)
--------corpus-psub_SG-100-5.model.result(4KB)
--------SG-52-5-133M.model.result(4KB)
--------SG-52-5-266M.model.result(4KB)
--------corpus-ps_SG-52-5.model.result(4KB)
--------corpus-psub_SG-52-5-N30.model.result(4KB)
--------corpus-psub_SG-200-5-R10.model.result(4KB)
--------corpus-psub_CB-52-5.model.result(4KB)
--------corpus-psub_SG-52-10.model.result(4KB)
--------corpus-psu_SG-52-5.model.result(4KB)
--------corpus-psub_CB-52-5-MEAN.model.result(4KB)
--------corpus-psub_SG-200-5.model.result(4KB)
--------corpus-psub_CB-52-15.model.result(4KB)
--------SG-300-5-NS10-R50.model.result(5KB)
--------corpus-psub_SG-52-5-N10.model.result(4KB)
--------corpus-psub_SG-300-5-R10.model.result(4KB)
--------corpus-psub_CB-52-10.model.result(4KB)
--------corpus-psub_SG-52-5-R20.model.result(4KB)

网友评论