文件名称:ETM:嵌入空间中的主题建模
文件大小:3.42MB
文件格式:ZIP
更新时间:2024-05-21 10:43:18
Python
电子取款机 这是Adji B. Dieng,Francisco JR Ruiz和David M. Blei题为“嵌入空间中的主题建模”的论文的代码。 (Arxiv链接: ://arxiv.org/abs/1907.04907) ETM在相同的嵌入空间中定义单词和主题。 ETM下的单词可能性是分类的,其自然参数由单词嵌入与其指定主题的嵌入之间的点积给出。 ETM是一个文档模型,可学习可解释的主题和单词嵌入,并且对于包含稀有单词和停用词的大量词汇表具有较强的鲁棒性。 依存关系 python 3.6.7 pytorch 1.1.0 数据集 所有数据集均经过预处理,可以在以下位置找到: (其中包含停用词,用于展示ETM停用词的鲁棒性。) 可以在文件夹“ scripts”中找到所有用于预处理给定ETM数据集的脚本。 20NewsGroup的脚本是独立的,因为它使用scikit-learn
【文件预览】:
ETM-master
----etm.py(4KB)
----data.py(2KB)
----scripts()
--------data_20ng.py(9KB)
--------data_nyt.py(8KB)
--------stops.txt(3KB)
----utils.py(3KB)
----main.py(16KB)
----skipgram.py(2KB)
----LICENSE(1KB)
----README.md(3KB)
----data()
--------20ng()