文件名称:zhwiki-gensim-word2vec:使用gensim在zhwikidata上训练Word2Vec,并通过TSNE显示结果
文件大小:1.02MB
文件格式:ZIP
更新时间:2024-06-05 02:10:26
JupyterNotebook
zhwiki-gensim-word2vec The goal of this assignment is to train a Word2Vec using gensim over zhwiki() data and show the result by TSNE. 用Wikipedia的中文数据训练Word2Vec 1 下载数据() 2 解压数据 WikiExtractor 3 数据准备 a. jieba切词 b. 数据清洗、去停用词 c. 繁体化简体 OpenCC 4 用gensim 训练 Word2Vec 5 结果显示 TSNE
【文件预览】:
zhwiki-gensim-word2vec-master
----word2vec_train.py(425B)
----WikiExtractor.py(114KB)
----wiki_to_txt.py(2KB)
----README.md(467B)
----zhwiki_gensim_word2vec.ipynb(1.57MB)
----result.py(1KB)