spider:利用spring boot + webmagic开发的java爬虫系统

时间:2024-03-31 14:58:10
【文件属性】:

文件名称:spider:利用spring boot + webmagic开发的java爬虫系统

文件大小:277KB

文件格式:ZIP

更新时间:2024-03-31 14:58:10

系统开源

蜘蛛 一。简介 通过spring boot建造的爬虫系统 二。技术选型 spring boot:构建项目框架,比较Swift,集成嵌入式tomcat,部署运行方便,零配置代码简洁 elasticSearch:作为nosql数据存储引擎 elastic-job:分布式作业调度系统,依赖zookeeper环境作为分布式协同 WebMagic:爬虫框架,有去重功能,支持Xpath,regex,css等选择器 三。运行方式 先启动zookeeper和elasticsearch ,并修改相应配置,然后按下面任意方式启动项目 方式一:执行命令mvn spring-boot:run立即启动 方式二:maven打成jar包后,将使用命令java -jar spider-1.0.0-SNAPSHOT.war &启动spider-1.0.0-SNAPSHOT.war 方式三:部署在tomcat中直接运行 四。


【文件预览】:
spider-master
----.gitignore(330B)
----biz()
--------src()
--------pom.xml(5KB)
----pom.xml(6KB)
----README.md(1KB)
----web()
--------src()
--------pom.xml(3KB)

网友评论