爬虫学习总结

1:接触的爬虫模块

urllib ,request,selenium

2:robots协议：规定网页数据那些数据是否能爬去

--requests模块没有语法对该协议生效

--scrapy中有对该协议进行生效

3:如何解析验证码

--图片验证吗，可以用numpy模块对图片进行处理。

--文字验证码，可以使用云打码平台，打码兔等

4:解析数据方式

正则，xpath,bs4

5:抓取动态页面

--selenium

--ajax

6:接触的几种反爬机制：robots,UA，封ip,验证码，动态数据获取，tonken,数据加密

7:在scrapy接触爬虫类：spider,CrawlSpier,RedisSpider,RedisCrawlSpider

8:实现分布式爬虫：redis-scrapy

RedisSpider,RedisCrawlSpider

秒客网