Python爬取链家网24685个租房信息并进行数据分析

时间:2024-03-14 21:44:34

2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放。与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候可能需要思考一下睡地摊的收益和风险了,在没有自有住房的前提假设下,我们是该睡地摊还是租房呢?

针对这些问题,本文以深圳市为例,爬取了链家网最新发布的24685个房源租赁信息,包括房源地区分布、楼盘名称、租金、押金、租赁方式、品牌、户型、租期、朝向、水电燃气电梯配套、楼层等22个字段。然后,清洗数据并做可视化分析,试图回答以下几个问题:

1.深圳房屋租赁市场现状如何?
2.深圳哪些地区房源比较多且房租相对便宜,集中在哪些楼盘?
3.性价比较高的房源具有哪些特征?

一、数据获取

本文主要以数据分析为主,关于数据获取仅提供爬虫思路,如果对数据爬虫感兴趣可以前往本人公众号「菜J学Python」查看往期原创爬虫文章。由于链家限制每个地区仅可查看3000条记录(100页每页30条记录),所以针对记录数大于3000的地区需继续遍历子地区,才能获得更全面的数据。
Python爬取链家网24685个租房信息并进行数据分析
爬虫代码写完后运行一下,效果如下:
Python爬取链家网24685个租房信息并进行数据分析

二、数据清洗

本文数据清洗用到Pandas,限于篇幅,仅简单提供核心字段清洗方法,如果对数据清洗感兴趣可以前往本人公众号「菜J学Python」查看往期原创Pandas基础文章。

首先预览下要分析的数据,长这样:
Python爬取链家网24685个租房信息并进行数据分析
1.rent_district字段清洗
Python爬取链家网24685个租房信息并进行数据分析
2.rent_title字段清洗
Python爬取链家网24685个租房信息并进行数据分析
3.house_type字段清洗
Python爬取链家网24685个租房信息并进行数据分析
4.house_louceng字段清洗
Python爬取链家网24685个租房信息并进行数据分析
5.zujin字段清洗
Python爬取链家网24685个租房信息并进行数据分析
数据清洗后存入Mysql数据库,长这样:
Python爬取链家网24685个租房信息并进行数据分析
三、数据分析

数据处理好了,接下来就是写sql语句从数据库取数作图,关于sql相关的内容本公众号后续也会补充。本次数据分析写的sql语句主要如下:
Python爬取链家网24685个租房信息并进行数据分析
关于作图,用的工具就相对多一些,本次数据分析作图涉及Python内置作图库、Echarts、BI等。

1.深圳房屋租赁市场现状如何?

(1)地区分布
Python爬取链家网24685个租房信息并进行数据分析
由图可知,深圳在租房源主要集中在福田区、南山区和龙岗区,大鹏新区、坪山区和光明区在租房源数量较小,一定程度上反映出各地区房屋租赁市场的发展情况。
Python爬取链家网24685个租房信息并进行数据分析
南山区和福田区平均房租最高,而影响房租的主要因素为地价和经济发展水平。可见,既想在经济繁华区打工获得高额工资又想租到便宜的房子,是行不通的。

(2)租赁方式
Python爬取链家网24685个租房信息并进行数据分析
从租赁方式来看,深圳以整租为主,合租的房源极少。当然,现实中也存在很多这样的情况:一个整租房由不同的租户合租;一个整租房由一个租户租下,并转租给其他租户(俗称二房东)。

(3)中介品牌
Python爬取链家网24685个租房信息并进行数据分析
链家网入驻的房产中介品牌很多,占比较高的有链家、德佑、糯家等。德佑占比高主要源自它与链家的关系,2015年上海的德佑地产与北京链家合并。而就目前来看,各个品牌与链家之间更像是加盟入驻关系。

(4)居室
Python爬取链家网24685个租房信息并进行数据分析
从居室来看,3室的房屋最多,其次是2室和1室,4室及以上的房子较少。房租的价格与居室的关系就不用说了,自然是居室越多平均房租越高了。

(5)楼层
Python爬取链家网24685个租房信息并进行数据分析
从楼层来看,租赁住房以中高层为主,各楼层房租差异不大,低层房租相对更高一些。至于地下室,经过下钻分析,发现其主要是供批发商租用囤货的。

(6)朝向
Python爬取链家网24685个租房信息并进行数据分析
从朝向来看,招租房屋主要朝南和东南,而朝向东南的房屋平均房租最高,毕竟坐拥优越自然地理条件。朝向为南的房屋房源多,房租也相对较低,性价比相对更高。

(7)看房要求
Python爬取链家网24685个租房信息并进行数据分析
租房前切勿直接去找想要租的房屋,因为很有可能空无一人。基本都要提前预约,有些房屋还只能周末或者房主下班后看房。

(8)中介费
Python爬取链家网24685个租房信息并进行数据分析
中介费基本没有公示出来,毕竟涉及到房产中介的利益,比较敏感。仅有的22套列明中介费的房源平均中介费为5362元,还是很香的。

(9)支付方式
Python爬取链家网24685个租房信息并进行数据分析
房租的支付方式也比较灵活,月付和年付的相对少见一些,如果有中介要求年付一定要三思。其实,租赁市场更常见的是押一付三、押一付二等支付方式。

2.深圳哪些地区房源比较多且房租相对便宜,集中在哪些楼盘?

由前面的分析我们其实已经知道,优越位置和低价房租两者难以兼得,因此我们只能选择折中的策略。首先,我们看下房源数量最多的福田区、南山区和龙岗区的房租情况。
Python爬取链家网24685个租房信息并进行数据分析
Python爬取链家网24685个租房信息并进行数据分析
Python爬取链家网24685个租房信息并进行数据分析

我们再看一下各地区平均月房租低于5000元的房源数量:
Python爬取链家网24685个租房信息并进行数据分析
很显然,龙岗区租赁房源多且平均房租相对较低。另外,龙岗区距离福田区、罗湖区等经济繁华区也较近,上下班交通较为方便,租房性价比还是挺高的。

3.相对便宜的房源具有哪些特征?

既然锁定了目标,那我们继续下钻分析,看看这些性价比较高的房源具有哪些特征。首先,我们找到龙岗区平均房租在5000元/月以下的楼盘。
Python爬取链家网24685个租房信息并进行数据分析
继续下钻,看看房源数量最多的几个楼盘具有什么样的特征。

TOP1:远洋新干线一期
Python爬取链家网24685个租房信息并进行数据分析
TOP2:国展苑
Python爬取链家网24685个租房信息并进行数据分析
TOP3:招商依山郡
Python爬取链家网24685个租房信息并进行数据分析
TOP4:中海康城国际一期
Python爬取链家网24685个租房信息并进行数据分析
TOP5:保利上城
Python爬取链家网24685个租房信息并进行数据分析
整体来看,这些房源普遍面积较小,基本都在高层,只有少量房源拥有租用车位,但水、电、电梯等基础设施配套齐全,可以满足一般摆摊者的需求。

结语

综上分析,在睡地摊和租房的选择上,睡地摊完败,因为至少还有性价比较高的房子可租。至此,关于租房的数据分析告一段落,敬请期待J哥更多原创文章。当然,本文也还存在一些不足,数据分析的深度和广度还有待进一步提高。

声明

1.本数据分析只做学习研究之用途,提供的结论仅供参考,租房的选择涉及的影响因素还有很多,还请独立思考;
2.作者与链家无任何瓜葛,只是他家数据比较全比较干净便于数据分析,大家也可以去其他平台看看这些楼盘的情况,货比三家;
3.作者对地摊经济了解甚微,相关描述可能存在不当之处,请勿上纲上线。

关注微信公众号「菜J学Python」,后台回复“入群”进群和大家一起学习。
Python爬取链家网24685个租房信息并进行数据分析