*中文词向量.zip

时间:2023-12-17 04:28:21
【文件属性】:

文件名称:*中文词向量.zip

文件大小:336.39MB

文件格式:ZIP

更新时间:2023-12-17 04:28:21

* *中文词向量 中文词向量

*词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。


网友评论