【文件属性】:
文件名称:汉语单词向量:100多个汉语单词向量上百种预训练中文词向量
文件大小:347KB
文件格式:ZIP
更新时间:2021-02-19 02:17:42
word-embeddings embeddings chinese embedding chinese-word-segmentation
中文单词向量
该项目提供了100多个中文单词向量(嵌入),它们经过不同的表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练。 可以轻松获得具有不同属性的预训练向量,并将其用于下游任务。
此外,我们提供了一个中文类比推理数据集CA8和一个评估工具包,供用户评估其词向量的质量。
参考
如果使用这些嵌入和CA8数据集,请引用该论文。
沉力,赵哲,胡仁芬,李文思,刘涛,杜小勇, ,ACL 2018。
@InProceedings{P18-2023,
author = "Li, Shen
and Zhao, Zhe
and Hu, Renfen
and Li, Wensi
and Liu, Tao
and Du, Xiaoyong",
title = "Analogical Reasoning on Chinese M
【文件预览】:
Chinese-Word-Vectors-master
----testsets()
--------CA8()
--------CA_translated()
--------README.md(15KB)
----evaluation()
--------ana_eval_sparse.py(6KB)
--------ana_eval_dense.py(6KB)
----LICENSE(11KB)
----README.md(21KB)