文件名称:LDAOnSpark:LDA 的高效推理
文件大小:5KB
文件格式:ZIP
更新时间:2024-07-04 11:15:57
Scala
LDAOnSpark ============================ 2015 年 4 月 4 日 Spark 在 1.3.0 版本中增加了 LDA,该版本基于 CVB 算法。 CVB 比分布式 Gibbs Sampling 更快,消耗更少的内存,但它对于少量数据集表现不佳。 在我的实验中,分布式 GS 在包含 20,000 个文档的数据集上提供了更准确的结果。 ========== 这是一个用于潜在狄利克雷分配(LDA)的高效分布式吉布斯采样推理。 该算法使用 Spark 和 Breeze。 在使用此代码之前,您需要设置 Scala 和 Spark。 可以在 5 分钟内在 30 个核心的集群上训练一个包含 5000 个文档的实验集。 要使用此代码,您需要预处理您的文档。 输入格式应该是类 Data 的 RDD: 输入数据 = RDD[数据] 数据是: 类数据(ID:字符串
【文件预览】:
LDAOnSpark-master
----README.md(2KB)
----src()
--------LDA.scala(11KB)
--------Test.scala(1KB)