文件名称:Multi-sense-Embedding-Learning-using-Chinese-Restaurant-Process
文件大小:3.3MB
文件格式:ZIP
更新时间:2024-05-22 01:12:19
Java
多义嵌入可提高对自然语言的理解 吉维·李(Jiwei Li)和丹·尤拉夫斯基(Dan Jurafsky)在EMNLP 2015年发表的“做多感觉嵌入来提高自然语言理解能力”中使用中餐厅过程的多义学习算法的实现。本文中涉及的其他算法将很快发布。 输入文件 train_file.txt:输入文件。 该算法将文档视为基本单位。 每行对应于文档中的一个句子。 文档由带“ \ n”的空行表示。 train_file.txt中的每个索引都对应一个特定的单词标记。 如果输入文件没有明确的文档边界,则可以将任意随机数量的句子的大块视为文档。 frequency.txt:train_file.txt中找到的每个标记的出现单词的概率。 frequency.txt中的第一行对应于索引为0的单词的出现概率,第二行对应于单词1的出现概率,依此类推 输出文件 save_vect:每行对应于索引词的学习嵌入,例如,第
【文件预览】:
Multi-sense-Embedding-Learning-using-Chinese-Restaurant-Process-master
----dictionary.txt(156KB)
----math.java(6KB)
----preprocessing()
--------WordIndexNumDic.py(2KB)
--------text.txt(5.11MB)
----multi_sense.java(29KB)
----train_file.txt(3.25MB)
----README.md(2KB)
----frequency.txt(349KB)
----run_sense.sh(158B)