训练语料:
- 百度百科800w+条,20G+
- 搜狐新闻400w+条,12G+(数据下载链接见其它博文)
- 小说:90G左右
模型参数:
- window=5
- min_count=5
- size=64
- ps:其它参数见gensim库,执行代码为:Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)
其它相关:
- 分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
- 剔除了所有非中文字符;
- 最终得到的词典大小为6115353;
- 目前只跑了64维的结果,后期更新128维词向量;
- 模型格式有两种bin和model;
下载链接:链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8
本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344