【文件属性】:
文件名称:SeimiCrawler文档离线版
文件大小:59KB
文件格式:CHM
更新时间:2021-10-08 05:29:48
chm
•SeimiCrawler一个敏捷强大的Java爬虫框架
•1.简介
•2.需要
•3.快速开始 ◦3.1.maven依赖
◦3.2.在SpringBoot中
◦3.3.常规用法
•4.原理 ◦4.1.基本原理
◦4.2.集群原理
•5.如何开发 ◦5.1.约定
◦5.2.第一个爬虫规则类-crawler ◾5.2.1.注解@Crawler
◾5.2.2.实现startUrls()
◾5.2.3.实现start(Response response)
◾5.2.4.Response数据提取 ◾5.2.4.1.内部属性一览
◾5.2.5.回调函数
◾5.2.6.Request内部一览
◾5.2.7.自定义UserAgent(可选)
◾5.2.8.启用cookies(可选)
◾5.2.9.启用proxy(可选)
◾5.2.10.设置delay(可选)*
◾5.2.11.设置请求URL白名单匹配规则
◾5.2.12.设置请求URL黑名单匹配规则
◾5.2.13.设置动态代理
◾5.2.14.是否开启系统去重
◾5.2.15.关于自动跳转
◾5.2.16.异常请求处理
◾5.2.17.SeimiAgent支持 ◾5.2.17.1.基本配置 ◾5.2.17.1.1.直接运行
◾5.2.17.1.2.SpringBoot项目
◾5.2.17.2.使用
◾5.2.18.启动爬虫系统 ◾5.2.18.1.SpringBoot(推荐)
◾5.2.18.2.直接运行,独立启动
◦5.3.工程化打包部署 ◾5.3.1.SpringBoot(推荐)
◾5.3.2.独立直接运行
◦5.4.定时调度
◦5.5.自动解析Bean ◾5.5.1.注解@Xpath
◾5.5.2.使用
◦5.6.拦截器 ◾5.6.1.注解@Interceptor
◾5.6.2.接口SeimiInterceptor
◾5.6.3.拦截器样例
◦5.7.关于SeimiQueue ◾5.7.1.配置使用DefaultRedisQueue ◾5.7.1.1.SpringBoot项目
◾5.7.1.2.直接运行(非SpringBoot)
◾5.7.2.自行实现SeimiQueue
◾5.7.3.SeimiQueue样例
◦5.8.集成主流数据持久化 ◾5.8.1.准备工作
◾5.8.2.写一个DAO
◾5.8.3.开始使用DAO
◦5.9.分布式
◦5.10.通过http服务接口操作 ◾5.10.1.Request必填参数
◾5.10.2.SpringBoot(推荐)
◾5.10.3.直接运行 ◾5.10.3.1.发送抓取请求
◾5.10.3.2.接口描述
◾5.10.3.3.查看抓取状态
•6.常见问题汇总 ◦6.1.如何设置网络代理
◦6.2.如何开启cookie
◦6.3.如何启用分布式模式 ◾6.3.1.参考
◾6.3.2.特别注意
◦6.4.如何设置复杂的起始请求
•7.社区讨论
•8.项目源码