lianjiaspider:链家网在售二手房 小区和成交记录的抓取 20180616

时间:2024-05-30 17:30:59
【文件属性】:

文件名称:lianjiaspider:链家网在售二手房 小区和成交记录的抓取 20180616

文件大小:851KB

文件格式:ZIP

更新时间:2024-05-30 17:30:59

Python

挺用心的链家爬虫(速度更快 数据更全 评分更有意义) 网上抓取链家数据的爬虫很多 但有几个问题: 1、 在售二手房爬取的数据不全(实际在售二手房房源大概4万套),但由于每页展示30条, 但总共展示100页,也就是说爬取的仅仅是3000条在售二手房数据; 2、 没有各个小区的物业信息,物业费用能React一个小区的中高低档; 3、 没有已成交记录的信息,并且近期链家对成交价格隐藏; 4、 抓取后没有数据处理; 这个网页抓取的脚本完美解决了以上问题; 同时,技术上使用了多进程+多协程的方法,提高抓取效率; 最后对每一个在售二手房进行评分: 根据是否有窗户、窗户是否是落地、窗户朝向、得房率(套内面价/建筑面积)、得房单价和装修维度搭建评分模型,给出一个百分制的分数; 几个使用上的简要说明: 1、xmind_logic.png 是这个抓取脚本设计的思维导图,主要介绍了该方法的设计思路以


【文件预览】:
lianjiaspider-master
----screen.png(489KB)
----.gitignore(12B)
----CreateTableSql.sql(7KB)
----README.md(2KB)
----xmind_logic.png(332KB)
----LianJia()
--------__init__.py(0B)
--------LianJiaSpider_XiaoQu.py(15KB)
--------LianJiaSpider_ErShouFang.py(24KB)
--------score.py(6KB)
--------LianJiaSpider_ChengJiao.py(18KB)
----ershoufangdata.xlsx(40KB)
----SelectSql.sql(3KB)
----.idea()
--------workspace.xml(34KB)
--------vcs.xml(180B)
--------misc.xml(254B)
--------modules.xml(278B)
--------LianJiaSpider.iml(500B)

网友评论