cw2vec:cw2vec模型的实现

时间:2024-05-20 02:38:53
【文件属性】:

文件名称:cw2vec:cw2vec模型的实现

文件大小:506KB

文件格式:ZIP

更新时间:2024-05-20 02:38:53

natural-language-processing deep-learning embeddings cw2vec Python

cw2vec 的 TensorFlow 实现 cw2vec 是一种基于 skip-gram,并辅以笔画信息来训练中文词向量的模型,详见文章: 声明:此实现非 cw2vec 的官方实现,所有观点皆非 cw2vec 官方观点,如有错误请指正。 此实现力求忠于原文,除了以下: 相似度的计算:此代码在原文的基础上,乘了1 / |S(w)|,这是因为在使用原文的公式时,观察到了嵌入中出现 NaN 的现象。 在 skip window 中采样使用的是 random.sample(),原文未作说明。 batch 的处理并没有使用断句,原文未作说明。 对于笔画长度太短的词,代码进行了 padding,原文未作说明,(这样的词较少)。 关于 commit 的数量 此代码库只有为数不多的几个 commit,这是因为内部的代码库使用了 Git LFS,有许多大文件,所以使用了新的代码库。 训练方法 git cl


【文件预览】:
cw2vec-master
----train.sh(66B)
----README.md(6KB)
----cw2vec_kernels.cc(7KB)
----util.py(577B)
----train.py(12KB)
----compile.sh(391B)
----cw2vec_ops.cc(1KB)
----stroke.py(3KB)
----large()
--------input()
----graph.py(4KB)
----__init__.py(0B)
----requirements.txt(60B)
----evaluation.py(2KB)
----data.py(14KB)

网友评论