分布式爬取京东商品信息及评价

时间：2024-01-23 14:44:06

分布式爬取京东商品信息及评价

1、主要思路

　　获取京东所有商品列表：https://www.jd.com/allSort.aspx，大概有分类1190条

　　

　　连接格式为：https://list.jd.com/list.html?cat=xxx

　　页面如下：

　　

　　此页面可以从该页面直接获取商品价格、商品标题、商品URL、商品ID、商品品牌、商品店铺地址、商品型号，所以在获取此页面时直接解析这些数据。

　　需要的数据分析：本次爬取主要获取以下信息(已评价为基础存储商品信息，可以将评价和商品分开存)：

SQL

　　商品评价获取：采用京东json接口：https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv46561&productId=4207732&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

　　可更改参数：productId=4207732(商品ID)、page=0(第几页评价)、pageSize=10(每页显示的条数)

　　基本评价信息：

　　

　　热评信息：

　　

　　主要评价：

　　

2、代码实现

　　主代码：

主代码

　　Item　

item.py

　　自定义pipelines异步存储数据到MySQL

pipelines.py

　　配置settings启用相关功能

settings.py

　　main.py配置，用于启动函数

main.py

　　数据库建表　

建表SQL

　　启动splash

启动splash

　　启动爬虫：python main.py，启动后会定格此处，需要在redis上push对应的key

　　

　　 Redis上push 启动页的key

　　

　　爬虫开始正常爬取

　　

　　 Redis去重队列、请求队列、item队列如下

　　

3、数据存储情况

　　我一共起了五个进程，爬了一个晚上。

　　

　　

　

4、亚马逊爬取结果展示

　　商品信息

　　

　　评价信息

　　

　　　　　　

　　　　　　

　　

　　　　

发表于 2018-01-24 13:56 杜先生的博客阅读(...) 评论(...) 编辑收藏

刷新评论刷新页面返回顶部

相关文章

