Spider模块用于爬取网站的内容,可以帮助我们更快地了解网站的结构以及分布情况,为之后的测试提供方便。
Spider模块包含以下两个模块
- Control:控制模块
- Options:配置模块
1、Control
Control模块用于控制Spider模块的运行以及数据的显示,包含以下两个功能:
- Spider Status:Spider的状态
- Spider Scope:Spider范围
1.1、Spider Status:状态
Spider状态,主要是控制爬取的开始和暂停,以及显示爬取内容数量和请求队列的控制。
1.2、Spider Scope:范围
Spider范围也就是作用域,主要是管理爬取的范围。有两种控制方式:
- 系统默认
- 用户自定义
2、Options
配置选项模块主要是用于配置一些爬取的方式和参数,具体包含以下6个模块:
- Crawler Settings:爬取方式设定
- Passive Spidering:被动爬取
- From Submission:表单提交
- Application Login:应用登陆
- Spider Engine:爬取引擎
- Request Header:请求头
下面一一介绍
2.1、Crawler Settings:爬取方式设定
2.2、Passive Spidering:被动爬取
勾选上则表示在爬取时,会经过代理;数字表示爬取深度,0代表无限制。
2.3、From Submission:表单提交
2.4、Application Login:应用登陆
与提交表单基本一样
2.5、Spider Engine:爬取引擎
主要是对爬取模块的一些线程、超时等设定,具体如下
2.6、Request Header:请求头
主要是用于手工添加一些http请求头,在请求时生效
演示
随意挑选一个Web站点,右键选择Spider from here
此时在Spider模块中,已经显示爬取情况
切换至Target模块,找到该站点,即可查看爬取结果