文件名称:jingdong:jdPhone是一个基于Scrapy-Selenium的爬取京东手机信息的爬虫
文件大小:366KB
文件格式:ZIP
更新时间:2024-05-30 17:58:51
Python
jdPhone说明文档 介绍 jdPhone是一个基于Scrapy-Selenium的爬取京东手机信息的爬虫。 代码说明 运行环境 Windows 10 专业版 Python 3.5/Scrapy 1.5.0/MongoDB 3.4.7 依赖包 Requests Pymongo Selenium 3.11.0 Faker(随机切换User-Agent) 其它 由于京东的防爬限制,这里采用了模拟浏览器的工具Selenium结合Scrapy框架爬取京东。Selenium采用了headless mode无头模式和无图片模式提升了爬取速度。但是在获取AJAX动态加载的页面信息和全部网页时,依然受限于电脑性能和网页响应速度,还是设置了等待页面渲染时间,以定位需要的页面元素。整个爬虫的爬取的速度不快,而且京东也限制了整个搜索页面最大100页,总共5890条信息,但相对于手机信息,应该也够用了。最后由于
【文件预览】:
jingdong-master
----phone.PNG(199KB)
----phone.csv(756KB)
----jdPhone()
--------jdPhone()
--------debug.log(2KB)
--------scrapy.cfg(257B)
----README.md(1KB)