cw2vec:基于字符训练词向量

时间:2024-06-03 18:19:20
【文件属性】:

文件名称:cw2vec:基于字符训练词向量

文件大小:15.68MB

文件格式:ZIP

更新时间:2024-06-03 18:19:20

word2vec cw2vec Python

cw2vec 基于字符训练词向量,论文来源: 同时也有了解到其他有关于字符训练的论文:? 以及一些优化想法 数据 来源: 采用ZAKER新闻半年的新闻数据,vocabulary_size为200000 训练结果对比 采用word2vec跟cw2vec结果对比,测试集为,测试方法为Spearman's rank corrlation coefficient 暂由于其他项目还没空对模型进行对比,所以将模型&训练数据上传到,有兴趣的朋友可以做下测试,cw2vec优势: cw2vec使得对没有在训练数据中出现的单词(词汇表外的单词)计算单词的表征成为了可能 对于近义词间可以考虑字符的相似性如学校&学生都存在"学"相同字符 目前进展 word2vec词向量已经训练完成, cw2vec数据清洗完成,训练完成,抽空会对训练的结果进行对比,同时将模型分享出来 模型已经上传微云 已经实现 cw2vec mo


【文件预览】:
cw2vec-master
----bin()
--------train.py(992B)
----data()
--------tsne.png(133KB)
--------words_stroke.txt(72.43MB)
--------word_index.txt(2.81MB)
--------words-240发布()
--------.gitkeep(0B)
----.gitignore(23B)
----lib()
--------text()
--------train()
--------load_model()
--------__init__.py(0B)
--------batch()
----README.md(3KB)

网友评论