【2021夏季挑战赛】西安二手房分析图鉴

楼主
我是社区第229970位番薯,欢迎点我头像关注我哦~
一、选手简介

1、选手介绍

团队名称:梦之蓝小分队

队长介绍:【弥嘉琦】目前就职于一家医疗媒体公司,一家专业从事医生再教育的咨讯平台;我目前从事数据分析工作,对大健康和电商方向很感兴趣!

成员介绍:
  • 【林菁菁】现某医药科技公司的数据分析师,是专注做医疗零售的,以前最喜欢的是数学课,觉得数学有它的逻辑之美和独特的神秘魅力,因此长大后就希望数据分析能成为自己的一计之长,目前还在不断地磨练自己地技术中。
  • 【李梦辉】目前就职于某制造业的集团信息部,从事软件开发工作。个人对数据分析比较感兴趣,因为经过分析可以让我知道该如何做有依据的选择,而非简单的拍脑袋。

团队组成:在帆软社区因共同的想要成为伟大的数据分析师的梦想聚在一起!

团队照片:附上我们队颜值代表-美女分析师林菁菁女士的美照,欢迎交流



2、参赛初衷
  • 大赛奖励很诱人,我们冲着CDA的课程来的!
  • 我们希望通过这次团队成员的学习与合作,加强实操和学习新知识的能力!
  • 我们希望通过比赛实践锻炼和提升可视化BI工具的使用技能、方法和技巧!
  • 在社群和优秀的FineBI大神交流学习,学习优秀的数据可视化作品及分析思维!

二、作品介绍

1、业务背景/痛点

  • 链家网西安市挂盘二手房达将近7万套,各个区域各个价格各个房型各有不同;对于购房者而言,如何快速来了解和评估各区域房源情况,对二手房市场价格行情心中有数就迫在眉睫。要是有针对性的拆解量化二手房市场现状,对于特定需求提供更性价比高的推荐,则可以将购房者从茫茫的选择漩涡里解放出来,减少时间精力及选择成本,快速锁定真正适合的高性价比的房子。

2、数据来源

  • 自选数据:我们分析的数据来源于和鲸社区上的数据集:“全网最全链家二手房信息——西安”,内含二手房的单位均价、所在区域、房屋朝向、结构、房屋年限等维度。

3、分析思路


拿到数据后,我们围绕二手房价格分析主题,拆解了3个分析方向:首先拆解市场行情,再看有的房价影响因素、相关性,再对购买做建议。

【第1部分】对西安二手房的概况进行拆解,让购房者对西安各区房子市场心中有数;
【第2部分】对西安二手房的单价进行相关性分析,探索房价与医疗、教育、交通等之间的关系;
【第3部分】引入案例,对固定预算的主要因素次要因素打分做购买推荐分析。

4、数据处理

我们分析的数据来源于和鲸社区上的数据集:“全网最全链家二手房信息——西安”。在原数据集上,我们做了数据的清洗与拆分。

【清洗数据】——初步清洗,剔除不全和不完整的数据,将单位统一化成“万元/平方米”

【户型分析】——将户型分组汇总,分成“1室、2室、3室、4室、5室及以上”

【房屋结构】——将空值部分用“未知”代替

【相关性表】——将房屋单价与学校、交通、药店、便民设施的数量做关联,计算相关系数

【评分标准】——主、次要因素的标准与评分

【权重分配】——主、次要因素中各项目所占的权重


小插曲:
分享一个在做数据可视化的时候,遇到了BI的一个作图问题。我们想画3条关于学校数量与房屋单价相关性折线图,类似下图所示:


由于我们的表结构是这样的:


所以,当我们尝试用BI的折线图去制作时,总不能达到满意的效果,如下所示:
将小学数量与中学数量作为维度拖入横轴时,会出现有2个横坐标

              

若将小学数量与中学数量作为指标拖入横轴,则会出现2个点!

                  

解决方法:
重新规划了表结构,将小学数量与其对应的平均单价对应了起来:

                  

这样修改了之后,就可以成功作图了,最终达到了满意的效果:

                    

5、可视化报告

  我们采用统一商务蓝进行可视化配色,简约大气,从整体的67,169条数据中,我们得出了以下结论:

(1) 整体概况:

【关于区域】:西安房价在雁塔区和未央区的房子占比最大;地理上从中心向外,房子逐渐变少;雁塔区房子多单价也贵,高于长安区近3000元/㎡。
【关于面积】:40-80平的房子最多,占32.44%,其次为80-100平的房子,然后是120-300平的房子。其中,单价最高的是80-100平的房子,为1.66万/平方米。
【关于户型】:2室和3室的房子占比最多,单价也是最高的,单价高代表需求量也相对较大,说明西安人买房的普遍需求还是在2室到3室之间。
【关于朝向】:朝南的房子占比最大,达到了62.08%,远远超过其他朝向的房子,并且单价也是最高的,达到了1.75万元/平方米。
【关于装修】:精装的房子最多(除其他),占32.57%;精装的房子单价最高,高于平均线7000元/㎡。
【关于结构】:板塔结合的房子最多,占比达到了占44.59%,其单价也是最高的,达到了1.51万元/平方米,每平方米比单纯的塔楼、板楼约高出2000元。
【关于年限】:房屋年限满5年以上的房子最多,占比占46.11%,其次是2~5年限的房子,最少的是1~2年的房子;不过,在单价的对比中,随着房屋年限增加,单价整体呈下降趋势,其中满1-2年的二手房单价最贵,达到了1.68万元/平方米。

(2) 房价相关性:

【单价与交通】:单价与公交数的相关性:-1.5%,负相关性;单价与地铁数的相关性:-6.2%,负相关性。房价与地铁数量呈负相关,随着地铁站数量的增加而逐渐递减;房价与公交数量大致也为负相关,当公交数量为5时,单价最高;

【单价与学校】:单价与幼儿园数的相关性:0.02%,无相关性;单价与小学数的相关性:2.6%,弱相关性;单价与中学数的相关性:-7%,负相关性;单价与大学数:2.43%,弱相关性。房屋单价与小学和幼儿园数量最为相关,小学和幼儿园的数量越多,房屋单价越高;房屋单价与中学数量呈显著的负相关性,中学数量越多,房屋单价越低;与大学数量有一定的正相关性,大学数量越多,房屋单价相对较高。

【单价与药店】:单价与药店的相关性:-3.5%;单价与医院的相关性:-4%。在医院和药店数量为5之前,单价与医院和药店的相关性为正,药店数量越多,单价越高,而在数量为5个之后,价格波动不再明显,可以认为药店数量达到5个时,人们的需求达到饱和,价格的敏感度也随之降低。

【单价与便民设施】:单价与药店的相关性:-3.5%;单价与医院的相关性:-4%。在医院和药店数量为5之前,单价与医院和药店的相关性为正,药店数量越多,单价越高,而在数量为5个之后,价格波动不再明显,可以认为药店数量达到5个时,人们的需求达到饱和,价格的敏感度也随之降低。

(3) 购买推荐分析:

【案例】:王先生,预算两百万,要四室的,配套个人比较看重交通+学校+医疗,中层楼,精装最好,两梯两户最好,年限越短越好,最好朝南。
【推荐方法】:将影响房价的因素分为主要因素和次要因素,根据个人的重视及喜好程度进行打分,最后评选出分数最高的小区进行推荐。
【打分逻辑】:交通通过地铁数和公交数判断,学校通过幼儿园、小学、中学、大学进行判断,医院则通过医院数和药店数进行判断。
【影响打分的主要因素】:价格、面积、区域、户型以及用户所关心的交通、学校、医院为主要因素,根据用户预算及心理承受程度进行评分。
【影响打分的次要因素】:楼层、装修、梯户、年限、朝向作为次要因素,根据用户预算及心理承受程度进行评分。
【综合评分】:综合次要因素和主要因素的评分情况,将各小区的房源进行评分。
【强烈推荐】:筛选出评分中排名前10名的小区和房子。
【评分与选择】:与房屋排名进行联动,点击可看到房子的各得分情况,默认展示TOP1房子的得分。选出最符合条件的TOP10房源。 最终结果页面布局如图:


三、参赛总结

1.对FineBI工具的看法

这款可视化工具对新手很友好,0基础可通过帮助文档快速上手;同时有很多特色的动效,比如特殊显示,可以让画面动起来;定时发邮件仪表板功能,可以帮助更好的监控核心指标;用户设置便于用户及权限的分级管理;多表联动,可以让数据粒度层层拆解,便于定位数据问题;FineBI工具中包含有许多封装好的函数:可以直接筛选出TOP10-TOP100的项目,还有avg、sum等函数,可以直接应用在图表上,比直接写SQL要方便得多。

BI的“自定义分组”功能也不错,不用回到自主数据集里重新添加列重新做分组求和,就可以直接将维度分成指定的分组,这也是很方便的一点。另外,FineBI的小组合作也是一大亮点,只要分享一个网址,一个账号密码,就可以支持多人合作,不用再另外下载客户端,这一点对用户来说也方便了不少。总体来说,FineBI操作是一款操作简单,容易上手,功能强大,方便合作的软件。

2、参赛小结
一开始参加比赛时有两个想法,一个是希望能借助这次比赛能锻炼对数据的理解和对工具的使用,提高数据分析的思维;另一个是希望能够得到外界对自己的认可,若能获得比赛的奖金、奖品和荣誉,也不枉我们的努力付出。

现在输出了作品,也确实有了很多收获,除了之前提到的自身的提高之外,还意识到了团队合作的重要性。在和团队成员的磨合之中,我们互相学习,互相进步,互相发掘对方的闪光点。也正是因为有了团队成员的共同努力,才有了我们作品的诞生。

总之,感谢我们团队队员的辛勤付出,感谢大会提供了这次机会,以后还将继续加油,继续前进!

3、作品附件




分享扩散:

沙发
发表于 2021-7-7 14:17:29
有一个小问题,感觉有些结论有些反直觉,比如房子单价怎么和地铁、中学、医院呈负相关性呢?
板凳
发表于 2021-8-17 23:55:32
分析思路挺好的,如果能把结论放在最前面把看分析的人胃口吊起来就更好啦
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表