文件名称:AmazonTopics:在亚马逊评论数据集上练习主题模型技术
文件大小:174KB
文件格式:ZIP
更新时间:2024-07-20 02:56:47
Scala
这是一个正在进行的分析在线文本数据集的项目。 数据 正在分析两个不同的数据集。 亚马逊评论它可以从下载。 一些分布相似性实验可以从下载 代码 我们在这项工作中使用了和 。 大多数计算部分,如字数、散度计算,都是在 Spark 上进行的。 然后我们使用 IPython Notebook 来可视化结果,例如向量之间的距离。 IPython Notebook 文件位于notebook/ 。 在python/ ,有一些辅助脚本,例如数据解析器。 Spark 代码位于spark/ 。 spark/DistributionalSimilarity :数据源来自分布相似性实验。 每个名词的构造向量。 向量的元素是每个动词与相应名词一起出现的次数。 输出由每对向量之间的 Jensen-Shannon 散度、向量以及向量的索引与相应单词之间的映射组成。 spark/JSDivergence :
【文件预览】:
AmazonTopics-master
----writeups()
--------WordInformationGeometry.out(1KB)
--------WordInformationGeometry.aux(526B)
--------WordInformationGeometry.tex(5KB)
--------WordInformationGeometry.pdf(30KB)
--------WordInformationGeometry.log(8KB)
----notebook()
--------dist-sim.ipynb(32KB)
--------amazon_data.ipynb(173KB)
----README.md(2KB)
----python()
--------parser.py(526B)
----spark()
--------NearestNeighbor()
--------CanopyClustering()
--------KLDivergence()
--------Shuffle()
--------JSDivergence()
--------DistributionalSimilarity()
--------WordCountAndKLDivergence()
--------WordCount()