【文件属性】:
文件名称:webmagic:Java的可伸缩Web爬虫框架
文件大小:351KB
文件格式:ZIP
更新时间:2021-02-02 17:43:21
java crawler framework scraping JavaJava
可扩展的搜寻器框架。 它涵盖了爬虫的整个生命周期:下载,URL管理,内容提取和持久性。 它可以简化特定搜寻器的开发。
特征:
核心简单,灵活性高。
用于html提取的简单API。
使用POJO进行注释以自定义搜寻器,无需配置。
多线程和分发支持。
易于集成。
安装:
向您的pom.xml添加依赖项:
< dependency>
< groupId>us.codecraft groupId>
< artifactId>webmagic-core artifactId>
< version>0.7.4 version>
dependency>
< dependency>
< groupId>us.codecraft groupId>
< artifactId>webmagic-extension artifactId>
< version>0.7.4 version>
dependency>
WebMagic将slf4j与slf4j-log4j12实现一起使用