AmazonTopics:在亚马逊评论数据集上练习主题模型技术下载

【文件属性】：

文件名称：AmazonTopics:在亚马逊评论数据集上练习主题模型技术

文件大小：174KB

文件格式：ZIP

更新时间：2024-07-20 02:56:47

Scala

这是一个正在进行的分析在线文本数据集的项目。数据正在分析两个不同的数据集。亚马逊评论它可以从下载。一些分布相似性实验可以从下载代码我们在这项工作中使用了和。大多数计算部分，如字数、散度计算，都是在 Spark 上进行的。然后我们使用 IPython Notebook 来可视化结果，例如向量之间的距离。 IPython Notebook 文件位于notebook/ 。在python/ ，有一些辅助脚本，例如数据解析器。 Spark 代码位于spark/ 。 spark/DistributionalSimilarity ：数据源来自分布相似性实验。每个名词的构造向量。向量的元素是每个动词与相应名词一起出现的次数。输出由每对向量之间的 Jensen-Shannon 散度、向量以及向量的索引与相应单词之间的映射组成。 spark/JSDivergence :

立即下载

【文件预览】：
AmazonTopics-master
----writeups()
--------WordInformationGeometry.out(1KB)
--------WordInformationGeometry.aux(526B)
--------WordInformationGeometry.tex(5KB)
--------WordInformationGeometry.pdf(30KB)
--------WordInformationGeometry.log(8KB)
----notebook()
--------dist-sim.ipynb(32KB)
--------amazon_data.ipynb(173KB)
----README.md(2KB)
----python()
--------parser.py(526B)
----spark()
--------NearestNeighbor()
--------CanopyClustering()
--------KLDivergence()
--------Shuffle()
--------JSDivergence()
--------DistributionalSimilarity()
--------WordCountAndKLDivergence()
--------WordCount()

秒客网

AmazonTopics:在亚马逊评论数据集上练习主题模型技术

网友评论

相关文章