文件名称:LightLDA:可扩展,快速且轻量级的系统,用于大规模主题建模
文件大小:49KB
文件格式:ZIP
更新时间:2024-04-26 03:04:59
C++
轻型LDA LightLDA是用于大规模主题建模的分布式系统。 它实现了一个分布式采样器,该采样器支持非常大的数据大小和模型。 LightLDA通过快速的O(1)Metropolis-Hastings算法提高了采样吞吐量和收敛速度,并允许小型集群通过模型调度和数据并行化体系结构处理非常大的数据和模型大小。 出于性能方面的考虑,LightLDA是使用C ++实现的。 我们已经在Microsoft中成功地对大数据(Bing索引页的前10%PageRank值,包含数十亿个文档)进行了大主题模型(具有数万亿个参数)的培训。 有关更多技术细节,请参阅我们的。 有关文档,请访问我们的网站 。 为什么选择LightLDA LightLDA的主要功能是 可扩展:LightLDA可以在具有数十亿个文档的大数据上训练具有数万亿个参数的模型,这是以前的实现无法解决的规模。 快速:采样器每个多核节点每秒
【文件预览】:
LightLDA-master
----.gitmodules(124B)
----example()
--------text2libsvm.py(1KB)
--------nytimes.sh(831B)
--------get_meta.py(762B)
--------pubmed.sh(823B)
--------README.md(3KB)
----MakefileDocker(2KB)
----multiverso()
----LICENSE(1KB)
----windows()
--------lightlda.sln(4KB)
--------dump_binary()
--------lightlda()
--------README.md(285B)
--------infer()
----src()
--------document.h(2KB)
--------eval.cpp(3KB)
--------data_block.h(4KB)
--------data_block.cpp(4KB)
--------lightlda.cpp(9KB)
--------alias_table.cpp(9KB)
--------util.h(1KB)
--------common.h(3KB)
--------data_stream.cpp(5KB)
--------eval.h(1KB)
--------model.cpp(9KB)
--------trainer.h(2KB)
--------meta.h(4KB)
--------common.cpp(7KB)
--------trainer.cpp(7KB)
--------meta.cpp(8KB)
--------sampler.cpp(9KB)
--------sampler.h(3KB)
--------model.h(2KB)
--------alias_table.h(3KB)
--------data_stream.h(901B)
--------document.cpp(576B)
----preprocess()
--------dump_binary.cpp(18KB)
----.gitignore(32B)
----inference()
--------inferer.cpp(3KB)
--------infer.cpp(6KB)
--------inferer.h(1KB)
----Makefile(2KB)
----README.md(2KB)
----build.sh(169B)