【文件属性】:
文件名称:etm:词嵌入文本的连续空间主题模型的实现
文件大小:37KB
文件格式:ZIP
更新时间:2021-04-03 10:30:24
C++
词嵌入的连续空间主题模型
描述
实现了带有单词嵌入的连续空间主题模型,这是Daichi Mochihashi的增强模型。
环境
C ++ 14+
lang ++ 9.0
提升1.71.0
glog 0.4.0
gflag 2.2.2
boost-python3
python3
用法
准备基于文档的语料库并将其分为训练数据集和验证数据集
用MCMC训练ETM。
$ make
$ ./cstm -ndim_d=20 -ignore_word_count=4 -epoch=100 -num_threads=1 -data_path=./data/train/ -validation_data_path=./data/validation/ -model_path=./model/cstm.model
参考
【文件预览】:
etm-main
----pycstm.cpp(12KB)
----dockerfile(621B)
----cstm()
--------cstm.hpp(30KB)
--------model.cpp(34KB)
--------vocab.hpp(2KB)
--------fmath.hpp(26KB)
--------sampler.hpp(1KB)
--------common.hpp(2KB)
----README.md(776B)
----makefile(983B)
----word2vec()
--------word2vec.cpp(30KB)
--------convert.cpp(6KB)
--------distance.cpp(9KB)
----.gitignore(151B)