wikidata-corpus:使用word2vec训练Wikidata进行单词嵌入任务

时间:2024-05-28 18:06:35
【文件属性】:

文件名称:wikidata-corpus:使用word2vec训练Wikidata进行单词嵌入任务

文件大小:76.36MB

文件格式:ZIP

更新时间:2024-05-28 18:06:35

wikidata word2vec word-embeddings Python

wikidata wikidata.org Download STORE_PATH=data DATA_URL=http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 cd $STORE_PATH wget $DATA_URL Extract articles WikiExtractor.py -b 5000M \ -o data/zhwiki-latest-pages-articles.extracted \ data/zhwiki-latest-pages-articles.xml.bz2 繁体转简体 opencc -i data/zhwiki-latest-pages-articles.extracted/AA/wiki_00 \ -o data/


【文件预览】:
wikidata-corpus-master
----word2vec_c_format_build_dict.sh(764B)
----wordseg.py(1KB)
----word2vec_gensim_similarity.py(2KB)
----t2s.json(400B)
----requirement.txt(76B)
----tfidf_plain.py(3KB)
----fix_special_symbols.py(978B)
----pre-trained()
--------zhwiki-latest-pages-articles.0620()
----README.md(3KB)
----data()
--------.gitignore(117B)
----tfidf_sklearn.py(4KB)
----.gitignore(12B)
----tensorflow_word2vec()
--------text8.zip(29.89MB)
--------result.txt(24KB)
--------requirements.txt(165B)
--------README.md(88B)
--------word2vec_basic.py(9KB)
----word2vec_c_format_train.sh(781B)
----compute-pre-train-distance.sh(539B)

网友评论