文件名称:最简单的爬虫-WebMagic 0.73 源码
文件大小:348KB
文件格式:ZIP
更新时间:2020-12-24 02:47:25
WebMagic 爬虫
最简单的爬虫设置,最好二次开发的爬虫 WebMagic 框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。作为爬虫框架,它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学们可以先行百度一下这些都是什么,起了什么作用,以便更好的理解爬虫的原理。 爬虫主要思想分这么几步: 1. 根据种子链接,抽取目标链接放入待爬取队列 2. 从页面中解析并抽取需要的信息,webmagic在这里会用Jsoup组件来解析html页面。 3. 处理数据。将已提取出来的数据以文件格式存放或者存入数据库以及搜索引擎索引库等。