【文件属性】:
文件名称:ETM:嵌入空间中的主题建模
文件大小:3.42MB
文件格式:ZIP
更新时间:2021-05-01 16:56:38
Python
电子取款机
这是Adji B. Dieng,Francisco JR Ruiz和David M. Blei题为“嵌入空间中的主题建模”的论文的代码。 (Arxiv链接: ://arxiv.org/abs/1907.04907)
ETM在相同的嵌入空间中定义单词和主题。 ETM下的单词可能性是分类的,其自然参数由单词嵌入与其指定主题的嵌入之间的点积给出。 ETM是一个文档模型,可学习可解释的主题和单词嵌入,并且对于包含稀有单词和停用词的大量词汇表具有较强的鲁棒性。
依存关系
python 3.6.7
pytorch 1.1.0
数据集
所有数据集均经过预处理,可以在以下位置找到:
(其中包含停用词,用于展示ETM停用词的鲁棒性。)
可以在文件夹“ scripts”中找到所有用于预处理给定ETM数据集的脚本。 20NewsGroup的脚本是独立的,因为它使用scikit-learn
【文件预览】:
ETM-master
----etm.py(4KB)
----data.py(2KB)
----scripts()
--------data_20ng.py(9KB)
--------data_nyt.py(8KB)
--------stops.txt(3KB)
----utils.py(3KB)
----main.py(16KB)
----skipgram.py(2KB)
----LICENSE(1KB)
----README.md(3KB)
----data()
--------20ng()