文件名称:《用Python写网络爬虫》-[澳]理查德 劳森(Richard Lawson)
文件大小:9.87MB
文件格式:PDF
更新时间:2020-10-14 16:43:17
Python 爬虫
《用Python写网络爬虫》介绍了如下内容: 通过跟踪链接来爬取网站; 使用lxml从页面中抽取数据; 构建线程爬虫来并行爬取页面; 将下载的内容进行缓存,以降低带宽消耗; 解析依赖于JavaScript的网站; 与表单和会话进行交互; 解决受保护页面的验证码问题; 对AJAX调用进行逆向工程; 使用Scrapy创建高级爬虫。