文件名称:Half-Size:代码“有效减少单词嵌入的维数”
文件大小:7.77MB
文件格式:ZIP
更新时间:2024-06-03 18:35:24
pca glove fasttext wordembedding nips-2017
编码及其早期。 在NIPS 2017 LLLD研讨会上被接受,并在NLP,ACL的第四次代表学习研讨会上发布。 摘要:词嵌入已成为几种自然语言处理和信息检索任务的基本构建块。 预训练的词嵌入在多个下游应用程序中使用,以及用于构建句子,段落和文档的表示形式。 近来,已经强调通过后处理算法来进一步改进预训练的单词向量。 这种改进的领域之一是减少单词嵌入的维数。 通过降维来减少单词嵌入的大小可以提高其在受内存限制的设备中的效用,从而使一些实际应用受益。 在这项工作中,我们提出了一种新颖的算法,该算法有效地将基于PCA的降维与最近提出的后处理算法结合在一起,以构建较低维的词嵌入。 对12个标准单词相似性基准的经验评估表明,我们的算法将嵌入维数降低了50%,同时实现了与较高维嵌入类似或(通常)更好的性能。 单词向量评估代码可直接从。 运行脚本algo.py (截至目前,嵌入文件的位置已进行硬
【文件预览】:
Half-Size-master
----20newsgroup.py(4KB)
----ppa_pca.py(2KB)
----all_wordsim.py(1KB)
----read_write.py(805B)
----ranking.py(2KB)
----reuters8.py(4KB)
----datasets.txt(54B)
----ranking.pyc(3KB)
----pca_ppa.py(2KB)
----README.md(3KB)
----pca_simple.py(1KB)
----data()
--------word-sim()
----wordsim.py(1KB)
----new_embeddings.py(1KB)
----algo.py(2KB)
----imdb_test.py(4KB)
----downstream_datasets()
--------r52-train-no-stop.txt(3.08MB)
--------20ng-train-no-stop.txt(10.59MB)
--------r8-train-no-stop.txt(2.42MB)
--------r8-test-no-stop.txt(884KB)
--------20ng-test-no-stop.txt(6.86MB)
--------r52-test-no-stop.txt(1.09MB)
----reuters52.py(4KB)
----read_write.pyc(1KB)