【文件属性】:
文件名称:DoubanHahahaScraper:哈哈哈哈哈哈
文件大小:280KB
文件格式:ZIP
更新时间:2021-05-23 19:25:58
JupyterNotebook
豆瓣小组爬虫(哈哈哈哈哈哈哈组)
本库包含哈组爬虫及数据分析代码
#####仅用于学习、交流#####
#####更新于2021.2.5#####
语言
python 3.6
依赖库
beautifulsoup4 (>= 4.6.0)
requests (>= 2.18.4)
pandas (>= 0.20.3)
tqdm (>= 4.49.0)
爬取字段包括:
标题
作者昵称
作者id
回应数
发帖时间
发帖方式
帖子内容
帖子url
回应内容
回帖人url
回帖方式
帖子中包含图片(或gif)的数量
输出:
包含上述字段的CSV表
=====================================================
哈组数据分析代码(data_vis.ipynb)
依赖库
wordcloud == 1.8.1
numpy >= 1.19.1
matplotlib
【文件预览】:
DoubanHahahaScraper-master
----image.png(89KB)
----LICENSE(1KB)
----doubanScraper.ipynb(70KB)
----data_vis.ipynb(312KB)
----README.md(879B)