1:接触的爬虫模块
urllib ,request,selenium
2:robots协议:规定网页数据那些数据是否能爬去
--requests模块没有语法对该协议生效
--scrapy中有对该协议进行生效
3:如何解析验证码
--图片验证吗,可以用numpy模块对图片进行处理。
--文字验证码,可以使用云打码平台,打码兔等
4:解析数据方式
正则,xpath,bs4
5:抓取动态页面
--selenium
--ajax
6:接触的几种反爬机制:robots,UA,封ip,验证码,动态数据获取,tonken,数据加密
7:在scrapy接触爬虫类:spider,CrawlSpier,RedisSpider,RedisCrawlSpider
8:实现分布式爬虫:redis-scrapy
RedisSpider,RedisCrawlSpider