网络爬虫防止被封的策略和反反爬策略简单总结

今天不想工作，比较累，遇到一个网站反爬比较严重，不说具体哪个名字了，简单总结下爬虫防封策略

1，伪装http 头

chrome 开发者模式，firebug等抓包工具，查看http 进行模拟User-Agent，有的需要加上Referer，可以多加入几个http user

2，代理ip，对于限制ip 或者ip被封的采用代理ip

代理ip 可以抓取，本人每天监控十多个网站，每天能抓取一批，计划以后每天公布几个可以访问百度的代理ip，注意用高匿的最安全

3，有些需要进行登录

进行模拟登录，或者手动登录了记下cookie 天上

4，验证码

目前有些简单的验证码机器可以识别下，有些不行，需要人工输入，当出现反爬，报警后，再人工干预下

5，注意抓取频度

这是反爬的一个最简单，但是很实用的方式

6，可以使用拨号的ip，定期拨号更换ip，注意间断一段时间，保证ip变化

7，采用模拟浏览器的一些方式，进行模拟人的行为，包括自动填表，自动点击，自动滑动滚动条等，可以用selenium 和htmlunit 实现，phtomjs 也是一个不错的选择

8，分析网站反爬的一些策略，进行相应的反反爬策略去除，比如有些转为爬虫设置的一些坑，需要识别出来，具体大家可以搜搜一些

秒客网