SeimiCrawler

时间:2020-04-26 11:30:30
【文件属性】:
文件名称:SeimiCrawler
文件大小:117KB
文件格式:ZIP
更新时间:2020-04-26 11:30:30
爬虫 SeimiCrawler An agile,powerful,standalone,distributed crawler framework. SeimiCrawler的目标是成为Java里最实用的爬虫框架,大家一起加油。 简介 SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。 号外 2016.04.14 用于实现浏览器级动态页面渲染以及抓取的SeimiAgent已经发布。SeimiAgent基于Qtwebkit开发,主流浏览器内核(chrome,safari等),可在服务器端后台运行,并通过http协议发布对外调用API,支持任何语言或框架从SeimiAgent获取服务,彻底的解决动态页面渲染抓取等问题。具体可以参考SeimiAgent主页。SeimiCrawler已经在v0.3.0中内置支持SeimiAgent的使用并添加了demo,具体请查看demo或是官方文档。 2016.01.05 专门为SeimiCrawler工程打包部署的maven-seimicrawler-plugin已经发布可用,详细请继续参阅maven-seimicrawler-plugin或是下文工程化打包部署章节。
【文件预览】:
SeimiCrawler-master
----LICENSE(11KB)
----.gitignore(109B)
----demo()
--------pom.xml(4KB)
--------src()
----project()
--------pom.xml(5KB)
--------src()
----README.md(6KB)
----ChangeLog.md(5KB)

网友评论

  • 刚接触,帮助还是挺大的,非常不错,感谢楼主
  • 新手小白,希望能有帮助吧