一. 数据集背景
数据来源:https://pic1.zhimg.com/v2f1972ca63e72ba85398ec32fd712fb72_1440w.jpg?source=172ae18b
共享,通过让渡闲置资源的使用权,在有限增加边际成本的前提下,提高了资源利用效率。随着信息的透明化,越来越多的共享发生在陌生人之间。短租,共享空间的一种模式,不论是否体验过入住陌生人的家中,你都可以从短租的数据里挖掘有趣的信息。
活动采用了短租房源相关的公开数据,包括了结构化的表格数据、非结构化的文本和地图数据。该数据集包含listings,calendar,reviews等数据集,本次主要分析listing数据集。listings 数据为短租房源基础信息,包括房源、房东、位置、类型、价格、评论数量和可租时间等等。
二.分析目的和分析维度
1.分析目的
通过现有数据分析Airbnb在北京2109年度短租的运营情况探索性分析,了解其短租情况;分析房东数据,建立房东用户画像;分析短租优质房间共性,提出改进方案。
2.分析维度
(1)业务数据
房源的价格分布分析
房源的位置分布分析
(2)房东用户群体
用户信息分析
房东拥有房源数量分析
明星房东特点分析
(3)房源分析
房源的区域分布
房源的关键词分析
三.数据预处理
1.数据理解
在listings数据集中主要描述了:房间id,房东ID、房东姓名、所属行政区、经纬度、房间类型、价格、最小可租天数、评论数量、最后一次评论时间、每月评论占比、房东可出租房屋、每年可出租时长等。
2.数据清洗
1.重复值数及据类型处理
分析三表数据发现并无重复记录数据。字段neighbour仅保留中文字段,room_type删除单位apt。
2.缺失值处理
这里补充为null。
3.异常值处理
数据可视化对特征进行初步分析,找出不合理的地方。可以看出价格存在异常值。
1.根据airbnb的官网分析,多数价格在0-5000,然后价格中存在一些异常大的值,甚至超过了1万每晚。
2.可租天数可有些是0,说明一年中0天可租,明显不合理。
综上我删除了价格为0和可租天数为0的数据。
四.数据分析
1.价格分析
(1)价格分布
共计24449条数据,房价最小值为27,对大值为68983
价格小于等于2000的房子数量为25730个,占所有房子的比例为0.9855,因此我们着重分析价格小于2000元的分布规律。
(2)价格相关性分析
通过皮尔逊系数计算其他变量与价格之间的关系如下图所示,发现与价格关联度最大的是经纬度,也就是房源的地址,其次是房源的评论情况。
2.房源位置分析
(1)房源价格分布
从中位数上看东城区,密云区,延庆县房源价格较高。
怀柔县,延庆县,平昌区价格区间较大。
平价房源价格大多分部在[200,500]价格区间,少数区域价格存在异常值。
平价房源大多分布在朝阳区,东城区,海淀区。
(3)短租房类型与地区
在同一地区,一般整租的房价钱最高,共享房间最低,符合一般价值规律。 但注意到两处:
1)在怀柔、延庆两地,独立房间类的房比共享房间还低。
2)门头沟区的独立房间类的房价钱是比整租的房价高的。
(3)房源分布
可租房源最多的是朝阳区,接下来是东城区,海淀区,丰台区。可租房源数量最少的是平谷区,门头沟,石景山等地。
2.房东用户分析
(1)房东数据
房东拥有房源数量最小为1,最大为222,每个房东平均房源数量为12,大多数房东房源数量在[1,11]区间。
(2)房东拥有房源数量
房源数量top10最多223,最少73,说明有专注短租的公司或团体。但拥有房间数在1-5间的个体房东仍然是主要的房东用户。
(3)明星房东
明星房东数量低于1/5,为18.94%。
!](https://img-blog.csdnimg.cn/2020080620271466.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTcyNDc2MQ==,size_16,color_FFFFFF,t_70)
只有74%的房东对于客户咨询信息能达到100%的回复率,显然是一个差强人意的数字。
3.优质房源分析
(1)房源分布
房源大多分布在北京市中心。朝阳区,海淀区,东城区房源数量较大。
(2)房源关键词分析
使用jieba对评论关键词分析,用户更倾向选择地铁附近的房子,交通的便利性是比较主要的考量内容。
三.总结
(1)价格分析
从数据上看短租房的价格区间大多为27-700的平价房间,北京的平均房价为611元,房源多说分布在200-500之间。房源类型分为整租,独立房间和合租房。整租数量最多,占了总数的3/5,而合租房最少。短租房源大多分布朝阳区,东城区,海淀区(市中心)
(2)用户分析
Airbnb的房东拥有房源数量最小为1,最大为222,每个房东平均房源数量为12,大多数房东房源数量在[1,11]区间。拥有房间数1-5间的房东占总房东的百分之60。也有较少一部分公司或团体以Airbnb为短租平台。最多的用户的有223套房源,房源数量top10最低也有77套。74%房东对客户咨询的回复时间是在一小时以内,12%房东的回复时间在小时内,甚至一天内。同时只有74%的房东对于客户咨询信息能达到100%的回复率。而超赞房东数量只有房东数量1/5都不到。
(3)房源分析
Airbnb在北京的房源大多分布在北京市中心的朝阳区,海淀区,东城区。
根据词频分析,用户更倾向于租住地铁站附近,可以直达的房子。房间类型温馨独立的短租房更受欢迎。
。