自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

时间:2024-04-13 18:31:54

一、2020数学建模美赛C题简介

从提供的亚马逊电商平台的商品评价数据中识别关键模式、关系、度量和参数。

需求

  1. 以此告知阳光公司在线销售策略
  2. 识别潜在的重要设计功能,以增强产品的满意度
  3. 阳光公司对数据基于时间的模式特别感兴趣

评价内容

  1. 个人评级,星级评价,1~5分
  2. 评论,文本信息
  3. 帮助评分, 其他用户对“评论”的作用的评价

提供数据

tsv格式的数据, 如下图
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

二、解题思路

使用LDA模型量化评论,再结合其他数据进行下一步数据挖掘。这里主要讨论LDA。

三、LDA简介

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为:

  • 一篇文章以一定概率选择了某个主题
  • 这个主题以一定概率选择了某个词语得到。
  • 文档到主题服从多项式分布,主题到词服从多项式分布。
  • 每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

应用

  • LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。

使用了词袋(bag of words)方法

  • 将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
  • 但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。

四、代码实

今天先写这么多,等待完善…

1. 数据准备

2. 数据预处理

2.1

2.2

2.3

3. 使用LDA模型进行主题分析

附录

参考博客:https://www.jianshu.com/p/4a0bd8498561