文件名称:matlab代码先保存在运行-WordMoversEmbeddings:WordMoversEmbeddings(WME)是用于生成用于文本分
文件大小:49.55MB
文件格式:ZIP
更新时间:2024-06-08 16:04:58
系统开源
matlab代码先保存在运行WordMoversEmbeddings WordMoversEmbeddings(WME)是一个简单的代码,用于生成可变长度的通用文本嵌入,包括句子,parapgrah和文档。 该代码是WME中的WME的简单实现(Matlab,Matlab MEX和C的混合)(Wu等人,“移词器的嵌入:从Word2Vec到文档嵌入”,EMNLP'18)。 我们将有关WME的更多信息引至以下论文链接:和IBM Research AI Blog :。 先决条件 预处理代码需要带有多个软件包的python 2.7。 如果使用Anaconda,则可以设置虚拟环境: conda创建-n yourenvname python = 2.7 anaconda 您还需要下载最受欢迎的预训练嵌入之一,例如Word2Vec或GloVe。 您可以从以下链接下载它们: 对于Word2Vec: 对于GloVe: 对于PSL: 如何运行代码 请注意,为了使您的应用程序获得良好的性能,必须搜索(使用交叉验证或其他技术)超参数DMax,gamma甚至lambda_inverse(用于使用SVM进行文本分类
【文件预览】:
WordMoversEmbeddings-master
----wme_Genfea_example.m(1KB)
----utilities()
--------predict_omp.mexa64(92KB)
--------svmtrain.mexa64(87KB)
--------libsvmread.mexa64(15KB)
--------predict.mexmaci64(84KB)
--------svmpredict.mexmaci64(81KB)
--------svmpredict.mexa64(86KB)
--------emd.h(2KB)
--------svmtrain.mexmaci64(81KB)
--------svm-scale.c(8KB)
--------train.mexa64(82KB)
--------emd_mex.mexa64(18KB)
--------libsvmwrite.mexa64(14KB)
--------libsvmread.mexmaci64(14KB)
--------svmtrain_omp.mexa64(79KB)
--------train.mexmaci64(84KB)
--------emd_mex.mexmaci64(17KB)
--------README.multicore(519B)
--------svmpredict_omp.mexa64(75KB)
--------svm-scale-README(1KB)
--------predict.mexa64(78KB)
--------svm-scale(18KB)
--------emd.c(19KB)
--------train_omp.mexa64(93KB)
--------build_emd.m(30B)
--------libsvmwrite.mexmaci64(9KB)
--------emd_mex.c(3KB)
----wme_GenFea.m(4KB)
----LICENSE(11KB)
----data_proc()
--------twitter.txt(271KB)
--------twitter.mat(15.62MB)
--------get_word_vectors.py(4KB)
--------postproc_generateDataset.m(2KB)
--------twitter-emd_tr_te_split.mat(33.97MB)
--------stop_words.txt(15B)
--------stop_words_115.txt(535B)
--------stop_words_nothing.txt(11B)
----distance.m(747B)
----wme_VaryingR_allSplits_CV_R256.m(5KB)
----wme_gridsearch_CV.m(7KB)
----README.md(4KB)
----wme_GenFea_preproc.m(3KB)
----wmd_dist.m(1KB)