文件名称:matlab的egde源代码-emf:单词嵌入已被取消:显式矩阵分解
文件大小:139KB
文件格式:ZIP
更新时间:2024-06-10 18:07:41
系统开源
matlab的egde源代码单词嵌入已被取消:显式矩阵分解 介绍 我们编写matlab代码来训练最初由著名的NLP工具箱word2vec ()提供的跳过语法否定采样(SGNS)。 我们的目标函数等效于SGNS,但是,我们以另一种方式设计算法。 您可以将我们的代码(w2vsbd.m)作为SGNS的matlab实现,这非常简单。 此外,我们提供了一个受监督的显式矩阵分解(w2vsbdsup.m),它将通过监督来提高性能。 用法 从下载数据集“ enwik9.zip” 解压缩“ enwik9.zip”并获取“ enwik9”,然后将其放在文件夹“ ./data/”中 在matlab中运行run_emf.m文件,您将获得本文的第一个实验的结果 在matlab中运行run_semf.m文件,您将获得本文第二个实验的结果 请参阅我们的paper()和代码 我们的实验环境(要求) 红帽企业Linux服务器版本6.2(64x) Perl 5.10 gcc 4.4.5 Matlab R2011a 细节 我们采用word2vec从生成共现矩阵,而我们的算法仅基于共现矩阵。 我们的算法是批处理模式交替最小化
【文件预览】:
emf-master
----explicit_loaddict.m(458B)
----txtq2matq.m(530B)
----accuracy_cos.m(1KB)
----accuracy_cos_selected.m(2KB)
----data()
--------q-words.txt(590KB)
----run_semf.m(4KB)
----preprocessing(2KB)
----w2vsbd.m(3KB)
----run_emf.m(4KB)
----preprocess.sh(37B)
----w2vsetup.m(431B)
----word2vec()
--------README.txt(1KB)
--------demo-classes.sh(358B)
--------word2vec.c(28KB)
--------demo-word-accuracy.sh(420B)
--------distance.c(4KB)
--------demo-train-big-model-v1.sh(5KB)
--------demo-analogy.sh(631B)
--------word2phrase.c(9KB)
--------LICENSE(11KB)
--------demo-phrase-accuracy.sh(885B)
--------word2vec(74KB)
--------makefile(308B)
--------word-analogy.c(5KB)
--------compute-accuracy.c(5KB)
--------demo-word.sh(389B)
--------demo-phrases.sh(853B)
----explicit_index.m(180B)
----get_question_id.m(946B)
----w2vsbdsup.m(5KB)
----README.md(2KB)
----load_question.m(314B)