【Hawk】入门教程(1)——从URL开始

时间:2022-12-12 11:25:07

入门教程(1)——从URL开始

首先感谢辛苦的沙漠君

先把沙漠君的教程载过来:)可以先看一遍

Hawk-数据抓取工具:简明教程

Hawk 数据抓取工具 使用说明(二)

20分钟无编程抓取大众点评17万数据

如果你能完美写出XPath,子流模块也能很好的使用,OK你可以跳过本教程

如果不能,我们丛理解开始讲起。

不知道你有没有使用过其他爬虫,比如pyspider,phantomjs,有些爬虫的思路是通过一个模拟浏览器来模拟点击去访问目标网页,

而我对HAWK的理解是组合出目标URL,去请求网页【难度大点的会带上post参数】,然后分析爬取响应的HTML。

所以我们会花很多心思在组合URL上,这一步骤完成了,才能进到爬取的详细页面去采集目标信息。