house_spider:Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis

时间:2024-06-02 22:30:45
【文件属性】:

文件名称:house_spider:Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis

文件大小:80KB

文件格式:ZIP

更新时间:2024-06-02 22:30:45

Java

house_spider Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis 简介 - 基于Java8 +、开源爬虫框架WebMagic、Springboot的一个链家爬虫,上手即用,可以指定需要爬取的城市名称、或者爬取全国。 - 数据存Mysql,默认根据搜索城市+日期自动建表,如搜索“南京”,则会通过JDBC新建表:“南京_20191127” - 没有用WebMagic的Pipeline来存DB,而是直接用JDBC存的,默认爬虫线程数为1,每翻页1页批量插入Mysql。 - 由于链家限制爬取页数为100页,所以一个城市下,先查出所有行政区,再遍历行政区下的所有街道,以每个街道为单位,进行最大100页的爬取,这样基本上能爬下城市的所有房源数据。(部分别墅、车位直接忽略没存DB) 使用 基础依赖:安装mysq


【文件预览】:
house_spider-master
----pom.xml(3KB)
----mvnw(9KB)
----citys.json(4KB)
----src()
--------main()
----.gitignore(311B)
----.mvn()
--------wrapper()
----README.md(1KB)
----mvnw.cmd(6KB)

网友评论