知识目录
静态网页抓取
Spider_基础总结1_Request(get/post__url传参_headers_timeout)+Reponse
Spider_基础总结2_Requests异常
Spider_基础总结3_BeautifulSoup对象+find()+find_all()
Spider_基础总结4_bs.find_all()与正则及lambda表达式
动态网页抓取
Spider_基础总结5_动态网页抓取--元素审查--json--字典
Spider_基础总结6_动态网页抓取--selenium
Spider_基础总结7_爬虫基本模板(3个类)
知识补充
Spider--补充--Requests--session&cookie
Spider--补充--None_global_urlparse
Spider--补充--jsonpath的使用
Spider--补充--selenium的使用
Spider--补充--Re模块_1
Spider--补充--Re模块_2
案例:
Spider--实战--bs静态网页爬取TOP250电影
Spider--实践--beautifulsoup静态网页爬取所有网页链接
Spider--实战--selenium_12306