Scrapy爬取西刺网站代理IP并写入MySQL(源码)

时间:2020-11-26 13:17:22
【文件属性】:

文件名称:Scrapy爬取西刺网站代理IP并写入MySQL(源码)

文件大小:15KB

文件格式:ZIP

更新时间:2020-11-26 13:17:22

爬虫

本文准备爬取国内高匿代理部分的IP信息,通过火狐浏览器可以看到有效信息都在id为ip_list的table里面,所以通过xpath和正则表达式即可拿到想要的信息。通过观察不同分页的url后发现从每二页开始每个url后面的数字即为当前页次,因而可以列举所有页面(本文示例代码爬取前三页)


【文件预览】:
collectips
----collectips()
--------middlewares.py(2KB)
--------pipelines.py(916B)
--------spiders()
--------__pycache__()
--------items.py(449B)
--------__init__.py(0B)
--------settings.py(3KB)
----scrapy.cfg(264B)
----.idea()
--------misc.xml(253B)
--------modules.xml(272B)
--------workspace.xml(22KB)
--------inspectionProfiles()
--------collectips.iml(398B)

网友评论