SeimiCrawler:一个简单,敏捷,分布式的支持SpringBoot的Java爬虫框架;一种敏捷的分布式爬虫框架

时间:2024-03-16 22:51:44
【文件属性】:

文件名称:SeimiCrawler:一个简单,敏捷,分布式的支持SpringBoot的Java爬虫框架;一种敏捷的分布式爬虫框架

文件大小:135KB

文件格式:ZIP

更新时间:2024-03-16 22:51:44

Java

SeimiCrawler 一个敏捷,强大,独立的分布式爬虫框架。支持spring boot和redisson。 SeimiCrawler的目标是成为Java里最实用的爬虫框架,大家一起加油。 简介 SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上减少新手开发一个替代高且性能不差的爬虫系统的门生物学,以及提高开发爬虫系统的开发效率。在设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用适当的效率更高的XPath解析HTML,所以SeimiCrawlerHTML解析器是 (独立扩展项目,非jsoup自带),并解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合完美解决复杂动态页面呈现抓取问题。


网友评论