目录
一、2020数学建模美赛C题简介
从提供的亚马逊电商平台的商品评价数据中识别关键模式、关系、度量和参数。
需求
- 以此告知阳光公司在线销售策略
- 识别潜在的重要设计功能,以增强产品的满意度
- 阳光公司对数据基于时间的模式特别感兴趣
评价内容
- 个人评级,星级评价,1~5分
- 评论,文本信息
- 帮助评分, 其他用户对“评论”的作用的评价
提供数据
tsv格式的数据, 如下图
二、解题思路
使用LDA模型量化评论,再结合其他数据进行下一步数据挖掘。这里主要讨论LDA。
三、LDA简介
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为:
- 一篇文章以一定概率选择了某个主题
- 这个主题以一定概率选择了某个词语得到。
- 文档到主题服从多项式分布,主题到词服从多项式分布。
- 每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
应用
- LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。
使用了词袋(bag of words)方法
- 将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
- 但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。
四、代码实
今天先写这么多,等待完善…
1. 数据准备
2. 数据预处理
2.1
2.2
2.3
3. 使用LDA模型进行主题分析
附录
参考博客:https://www.jianshu.com/p/4a0bd8498561