文件名称:wiki-word2vec:在Wikipedia上训练gensim word2vec模型
文件大小:5KB
文件格式:ZIP
更新时间:2024-05-28 07:27:55
Python
Wiki Word2vec 在Wikipedia上训练 word2vec模型。 大部分内容来自和。 创建该存储库主要是为了试用make ,有关重要内容,请参见要点。 请注意,性能在很大程度上取决于语料库的大小和所选的参数(尤其是对于较小的语料库)。 下面的示例和参数是精心挑选的。 用法 获取一种语言的代码(请参阅)。 将代码作为LANGUAGE的值运行make (或更改Makefile)。 例如,尝试斯瓦希里语(sw): make LANGUAGE=sw 要旨 忽略对斯瓦希里语的make并执行以下bash命令: mkdir -p data/sw/ wget -P data/sw/ https://dumps.wikimedia.org/swwiki/latest/swwiki-latest-pages-articles.xml.bz2 用Python训练模型: impor
【文件预览】:
wiki-word2vec-master
----process_wiki.py(2KB)
----create_word2vec.py(1KB)
----LICENSE(1KB)
----README.md(2KB)
----Makefile(604B)
----.gitignore(800B)