用python 3.0写了一个爬取代理ip地址的小工具,提供给需要代理ip地址制作爬虫的人。
Proxy_IPv0.1的功能有两个:
1.显示代理(响应速度快,但不能保证全部有效);
2.显示有效代理并保存为proxy_ip.txt文件(执行速度较慢,但proxy_ip.txt文件中的代理ip地址全部有效)。
爬取的众多代理IP可以作为爬虫的IP地址,防止本地IP或单一代理ip作为爬虫ip被目标网址屏蔽。
另因为不太熟悉多线程,所以目前版本的验证代理IP有效性的速度会比较慢,后期可能会略作修改,变成多线程验证节省时间。被爬取的网站中,一个页面包含100个代理IP地址,经过验证,基本全部有效,目标网站提供的代理ip可用性很高。
验证代理ip
proxy_ip.txt文件中的代理ip格式保存为'http'/'https':'xxx.xxx.xxx.xxx:xxx'格式,方便复制粘贴成代理列表
代码已上传到https://github.com/BaiFanJiuShuang/Proxy_IP