wikidata-corpus:使用word2vec训练Wikidata进行单词嵌入任务

时间:2021-05-09 00:19:55
【文件属性】:
文件名称:wikidata-corpus:使用word2vec训练Wikidata进行单词嵌入任务
文件大小:76.36MB
文件格式:ZIP
更新时间:2021-05-09 00:19:55
wikidata word2vec word-embeddings Python wikidata wikidata.org Download STORE_PATH=data DATA_URL=http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 cd $STORE_PATH wget $DATA_URL Extract articles WikiExtractor.py -b 5000M \ -o data/zhwiki-latest-pages-articles.extracted \ data/zhwiki-latest-pages-articles.xml.bz2 繁体转简体 opencc -i data/zhwiki-latest-pages-articles.extracted/AA/wiki_00 \ -o data/
【文件预览】:
wikidata-corpus-master
----word2vec_c_format_build_dict.sh(764B)
----wordseg.py(1KB)
----word2vec_gensim_similarity.py(2KB)
----t2s.json(400B)
----requirement.txt(76B)
----tfidf_plain.py(3KB)
----fix_special_symbols.py(978B)
----pre-trained()
--------zhwiki-latest-pages-articles.0620()
----README.md(3KB)
----data()
--------.gitignore(117B)
----tfidf_sklearn.py(4KB)
----.gitignore(12B)
----tensorflow_word2vec()
--------text8.zip(29.89MB)
--------result.txt(24KB)
--------requirements.txt(165B)
--------README.md(88B)
--------word2vec_basic.py(9KB)
----word2vec_c_format_train.sh(781B)
----compute-pre-train-distance.sh(539B)

网友评论