【文件属性】:
文件名称:python爬取豆瓣每个账户对电影的评分和影评,绘制评分饼图和影评词云图
文件大小:14KB
文件格式:PY
更新时间:2021-05-04 15:11:09
python爬虫
(1)打开豆瓣一部电影评论区,根据html结构捕获三个信息:
一,每账号的评分等级为5星、4星、3星、2星、1星;
二,每个账号的评论留言;
三,跳转到下个评论页面的http链接
(2)获取所有的信息后对信息进行处理:
一,计算出每个星级的总数和一共多少账户进行了评级
二、将所有的评论内容放在一起,处理评论中的空格和其他不规范形式
(3)用matplotlib绘制评分等级占比的饼图,用jieba进行分词处理,用wordcloud生成词云图
同个修改url=https://movie.douban.com/subject/26430636/comments?start=0&limit=20&sort=new_score&status=P&percent;_type=
之中“26430636”为电影的代表,将其换做其他的编号就可以读取和生成其他电影的matplotlib和wordcloud制作评分图和词云图
网友评论
- 很不错,实用
- 有导读,能成功生成饼图和评论文件