webmagic:Java的可伸缩Web爬虫框架

时间:2024-02-23 11:30:01
【文件属性】:

文件名称:webmagic:Java的可伸缩Web爬虫框架

文件大小:351KB

文件格式:ZIP

更新时间:2024-02-23 11:30:01

java crawler framework scraping JavaJava

可扩展的搜寻器框架。 它涵盖了爬虫的整个生命周期:下载,URL管理,内容提取和持久性。 它可以简化特定搜寻器的开发。 特征: 核心简单,灵活性高。 用于html提取的简单API。 使用POJO进行注释以自定义搜寻器,无需配置。 多线程和分发支持。 易于集成。 安装: 向您的pom.xml添加依赖项: < dependency> < groupId>us.codecraft < artifactId>webmagic-core < version>0.7.4 < dependency> < groupId>us.codecraft < artifactId>webmagic-extension < version>0.7.4 WebMagic将slf4j与slf4j-log4j12实现一起使用


网友评论