作品介绍文档
一、选手简介
1、选手介绍
- 团队名称:俩麻秆团队
- 队长介绍:老刘,帆软社区用户名麻秆1号,曾就职于国内某头部汽车集团,从事数据统计分析8年,利用数据分析推动多项管理和项目改进,分析结果被广泛用于公司内品质管控、管理提升、绩效管理等多层面,尤其擅长Python相关Pandas、numpy等在实际企业数据处理分析环节的落地应用,熟悉国内外各类开源统计BI工具如Superset等;
- 成员介绍:小倩,成员帆软社区用户名麻秆2号,现就职于国内某头部汽车集团旗下零部件子公司,从事数据统计分析2年,利用FineBI及Python等相关数据分析工具,为公司产品精度控制提升提供了持续的推力;对图表的表现形式和数据的展示方式有独到的美学视角,对业务数据和各数据间逻辑关系极具敏锐洞察能力
2、参赛初衷
团队接触FineBI时间不长,但惊喜的发现功能十分强大,无论是数据分析处理(对数据清洗、整合、转换和计算等),还是数据的可视化展示(将数据转化为仪表盘、各种图表等)都表现的十分出色。很激动在深入了解软件的过程中有这样一个比赛,也想借此机会对这段时间的应用过程进行一个总结,同时也能够和更多FineBI大神交流学习,进行数据可视化作品以及分析思维的激烈碰撞,在实际操作过程中也能够边应用边研究
二、作品介绍
1、业务背景/需求痛点
1.1 背景介绍
- 近十年国内汽车保有量逐年持续增长,使中国汽车产业成为继中国通信行业之后又一个高速发展的行业,汽车行业的飞速发展,已使其成为社会主流行业;
- 现在实际生活中消费者购车或行业内销售人员,都会时不时通过互联网关注各类信息。但是互联网上也充斥着各类乘用车汽车数据,通常都很庞大且繁杂,无法快速得到当前汽车市场的概况;
- 本总结尝试通过对近期的国内汽车销售数据的整理,去繁从简总结了当前国内汽车销售市场部分特点,以期使人能够通过本总结快速了解当前国内乘用车市场概况;
1.2 需求痛点
- 作为常常关注汽车行业相关信息的一般消费者,例如我们团队,有时很希望能够直观的看到当前乘用车汽车的整体概况是什么样的,后期市场是否还有增长空间、目前都是哪种类型的车比较受欢迎等等;
- 但是当前各类繁杂的汽车网站并不能够很直观快速的得到此类数据;
- 而如果使用EXCEL等软件制作统一的概况可视化报告,则当网络数据更新时,需要统一更新EXCEL内各图表,不易于更新和维护;
1.3 方案设想
使用FineBI分析主题快速搭建目视化报告,当销量等数据更新时,同步更新数据库,使针对汽车销售市场的数据目视化报告持续更新,能够定期快速监控到市场概况
2、数据来源
本总结数据来源均为互联网各网站中的公开数据,重点收集了以下数据:
- 近1年的乘用车详细销售明细:包括厂商名称、详细的车型、当月销量、售价;
- 乘用车各车型的详细参数:包括当前市场上常见的所有乘用车车型的名称、品牌、级别、类型、发动机参数、变速箱类型、充电时长、续航里程、用户评分等;
- 近十年国内乘用车保有量:重点为逐年度的国内乘用车保有量;
- 历年中美GDP:中美两国历年的GDP数据;
- 近十年国内外人口:中美两国历年的人口数据及人均GDP数据;
3、分析思路
针对拿到的数据及前期确定的概况主题,结合最终目视化快速展示的设想,策划整体开展思路:
将整体的概况拆分为两大部分进行总结:
3.1 销售市场的整体情况
主要是在整体层面上的概况总结,重点是对当前市场在时间维度上的进行概括,主要是国内的乘用车保有量及新增销量,同时分析影响整体销量的核心经济指标人均GDP的关系,并通过对比发达国家的历史同期水平确定国内市场走向。
3.1.1 当前市场的整体情况
开篇需要总述目前国内乘用车的保有量情况,以期本总结的阅览者能够先对整体情况建立一个概念。本部分策划主要从历年的保有量增长情况、增长趋势、截止目前的保有量三方面的历史数据,能够在时间维度上先建立一个简要的汽车销售市场的概况。之后通过近半年的新增销量情况,重点对近期的乘用车销售市场概况做了总结。
3.1.2 后期汽车市场预估
其次是承接上面的时间维度线,预估后期市场的走向或成长空间;本部分重点策划总结销量与人均GDP的相关性,并参考已经经历过相关经济水平的发达国家(例如美国),通过对比和类比趋势分析,给出预估的后期国内乘用车市场的发展空间。
3.2 当前乘用车销售市场的特点
另外一方面,是从近半年的详细销量情况去总结近期汽车市场的特点,在上述整体市场分析总结的情况下,对当前乘用车市场从厂商维度、车型维度、用户维度三方面分析概括出当前乘用车市场的大致特点,并重点从车型维度给出详细总结
3.2.1 厂商维度
厂商维度主要是从现有销售数据,侧面反映各车企的概况。重点是通过Top及线性排列等分析方法,确定近半年销量头部的N家车企厂商和其市场占比情况,并策划同时对各车企的重点乘用车车型做相关占比说明,最后针对车企车型的定价或售价对销量的影响做总结概括,从三个侧重点来反映厂商维度的特点。
3.2.2 车型维度
车型维度主要是从近半年车型销量中,结合各车型的全参数,将近半年销量数据区分出燃油车和纯电动车等类型查看其增长趋势。同时一方面针对燃油车的具体情况从车身级别、变速箱和发动机主要性能参数方面,总结了对销量的影响特点;另一方面,针对纯电动车的车身级别、充电模式及充电时间、续航里程,总结了主要性能参数对纯电动车销量的影响情况
3.2.3 用户维度
用户维度主要是从近一年半时间内,以某知名汽车网站上用户的评分为依据,策划使用热力图或气泡图等形式对厂商和车型做一个大致的概况评价
4、数据处理
确定上述分析思路后,我们针对原始数据重点做了以下处理:
4.1 数据颗粒化处理
- 汽车参数表:原始数据中发动机、变速箱等字段为多关键字描述的混合数据,需要将其梳理为最小数据元素级别(使用split等操作分割字段)
- 2023年销量表:原始数据中车身结构、售价、类型等字段字段为多关键字描述的混合数据,需要将其梳理为最小数据元素级别(使用split等操作分割字段)
4.2 年度等特殊字段处理
重点针对涉及到年份的数据表做了字段拆分和类型转化,使各表的时间维度在类型和次序上能够相互兼容,主要处理的表包括
4.3 表合并
针对上述分析思路中的各类对比分析,当单一表无法实现时,需要使用左右合并等方式,合并出完整的对比宽表,主要涉及以下两个表:
- 发动机排量与销量:此表的发动机排量需分组汇总,汇总完毕后根据汇总结果匹配销量,不宜通过主题模型的方式实现,故使用左右合并,最终形式如下
- 近5年中国与同期美国水平千人保有量对比:此表的中美两部分数据无相关字段,但需要人工分析完毕同期水平后予以对比显示,故需手工提前左右合并,最终形式如下
4.4 使用模型视图关联
根据上述第三部分思路分析结果,对收集到的数据表做上述数据处理后,根据4.2完成后的年度字段,建立模型视图,使各数据予以关联
5、可视化报告
根据上述思路分析结果,结合数据处理结果,逐步实现可视化报告:
5.1 涉及指标
本总结目视化报告策划涉及如下指标内容:
5.2 国内汽车销量整体情况版块
5.2.1 排版布局
本部分的排版布局如下所示:
- 整体上的三个大的独立指标结果使用指标卡形式,涉及时间线的使用柱形图和折线图,以表现汽车保有量和同比的趋势
- 颜色方面暂时考虑使用默认自动颜色,以方便后期仪表板模板变化时,实现自动颜色切换
5.2.2 重点组件
从中国历年汽车保有量中过滤近十年的数据信息,利用柱形图展示并添加拟合的增长趋势图
过滤2022-2023年的销量明细中2023年上半年的销量数据,使用多柱形图形式同时修改同比为折线形式
5.2.3 分析总结
- 截止2022年底,全国乘用汽车保有量3.19亿辆,自2013年起十年间,国内汽车保有量保持持续上升趋势,平均年增长1816万辆/年,增长趋势尚未见缓
- 2023年上半年乘用汽车新增累计1000.93万辆,上半年汽车销量逐月呈上升趋势,其中6月份销量200.13万辆,环比增长12.78%
5.3 汽车销量与宏观经济关系版块
5.3.1 排版布局
此版块重点是总结汽车销量与GDP关系,故根据前期开展思路,策划如下:
- 重点是近十年汽车保有量与人均GDP的关系对比情况,首先使用折线图总结两者趋势情况
- 之后使用散点图,分析两者之间的关系,并使用Pandas计算两者Pearson相关性系数
- 最后通过中美两国对比,得出同期人均GDP水平,参考美国预测国内后期市场
5.3.2 重点组件
整合近十年国内人均GDP数据,同时过滤出来近十年的汽车保有量,以具体呈现两者变化趋势情况
将上述数据人均GDP按500间隔分组,与国内汽车保有量结合,绘制散点图,并通过散点图拟合出国内汽车保有量与人均GDP的关系曲线
通过4.3数据处理后得到的对比数据表,建立对比柱形图,对比中美同期水平下的千人汽车保有量情况,预测后期国内市场增势
5.3.3 分析总结
- 通过国内人均GDP与乘用车保有量散点图,发现其整体趋向呈线性正相关分布,计算两者Pearson相关系数为0.999519,反映汽车保有量与人均GDP间存在强相关性,说明后期汽车市场可重点参考国内人均GDP增长
- 以美国为例参考发达国家其历年人均GDP趋势,并与国内人均GDP趋势对比可得,以近10年中国人均GDP水平(约0.8~1.3万美元)计算,当前中国汽车市场基本相当于美国1975~1980年代水平
- 考虑到人均GDP与汽车保有量的强相关性,同时考虑人口因素影响,对比中国5年与美国同等水平期间的千人汽车保有量指标,截止2022年中国千人汽车保有量为226辆/千人,约为同期美国保有量的1/3
- 综合上述数据分析,在考虑增长趋势、宏观人均GDP、及与美国为例的发达国家同期水平的情况下,可大胆预测当前中国国内乘用车市场后期仍将保持持续高速增长,在不考虑其他因素影响下,可乐观估计至少仍有2~3倍增长空间
5.4 近期国内乘用车市场情况版块
5.4.1 排版布局
整体策划分为2部分,其中第1部分重点阐述2023年上半年国内汽车销售的整体情况,第2部分按燃油车、纯电动车并列详细从汽车主要性能参数方面看销量情况
5.4.2 重点组件
通过4.3数据处理后得到的发动机排量与销售量的关系图表,建立矩形树图,对比显示当前市场自然吸气和涡轮增压两种类型占比和主要销量情况
需要汽车系数表与2023年销量进行联查,通过变速箱的参数分类,对应的求出各分类下的销量占比情况
需要汽车系数表与2023年销量进行联查,通过充电时长的对汽车参数分类,对应的求出各分类下的销量占比情况,可以得到峰值位置等特点信息
5.4.3 分析总结
- 2023年上半年销售的约1000万辆乘用车中,约75%车型为20万元以内车型,反映当前乘用车消费市场逐步趋于理性,高性价比和实用性成为当前普通消费者考虑的主要因素
- 燃油车销量仍呈逐月增长趋势,反映传统燃油车仍是当前汽车消费的主力军,但纯电动汽车已有逐月增长趋势,自1月份起约27万辆增长为6月份54万辆,半年内销量增长近一倍,显示了新能源汽车市场的强劲增长势头,后期市场值得期待
- 燃油车销售主力车型为紧凑型和中型车及SUV级别车型,小型车或大型车均非销售主流车型
- 无级变速器、湿式或干式双离合已成为当前燃油车市场的主要卖点,手动、自动等传统卖点吸引力下降
- 与车型分析相对应,当前市场主要由1.5T~2.0T涡轮增压类动力车型占据,自然吸气占比有所下降
- 纯电动车主要车型与燃油车相比,销量分布更加平均,除紧凑型和中型车外,小型车车型销量亦较为突出
- 当前纯电动充电时长,快充模式主要销售车型集中在0.5小时左右,慢充主要集中于9-10小时
- 纯电动车最大续航里程对销量影响明显,基本可划分为300公里以下、300-600公里、600公里以上三个阶梯
5.5 近期用户评价版块
5.5.1 排版布局
根据某知名汽车网站用户对各车型的评分数据,分别按厂商和车型进行评价,策划以词云或气泡图形式展示TOP100
5.5.2 重点组件
依据各用户对车型的评分,综合得到词云。建立词云的过程中,因网站的评分制为5分制,不能拉开词云大小,故通过指数方式对数据进行了放大处理
5.5.3 分析总结
- 2023年上半年某网站用户针对各车型的评分情况,被评分较高的厂商如国机、雷丁、云度等,主要车型如国机智骏GC1、哈弗神兽、马自达CX-30EV、东南DX5、雷丁芒果等评分较高的重点集中在新势力造车、新能源汽车及各类新能源或新一代汽车
- 反映当前消费者对近期国内造车工艺水平和科技含量水平,尤其新能源汽车造车水平越来越认可,后期各车企应从工艺制造水平和科技含量等方面持续投入,进一步博得消费者的认可
5.6 最终呈现的页面布局
经过多轮次思考分析和搭建修改,最终完成的页面布局如下:
三、参赛总结
参赛的策划、准备和可视化报告的编辑过程是紧张且充实的,通过这次参赛更加深入的了解到了FineBI的强大之处,也收获了更多的数据处理分析经验
1、FineBI工具
体会到的最大的几个优点:
- 提高数据分析效率,BI工具可以大量的处理数据,而且数据支持实时更新;
- 上手简单,操作方便,通过多种交互方式,可以进行各种分析,可通过拖拽方式,无须写过多的程序;
- 快速生产报表,进行可视化展示,支撑业务的决策
当然过程中也发现了几处可以进一步改进的地方(当然也可能是学艺不到家所致):
- 没有找到有关相关性分析的手段和展现形式
- 仪表板内的文本框宽度或高度不能任意调整,常常出现压字或过宽的情况
- 希望仪表板能支持更多的字体
2、参赛总结
这次参赛过程参加过程中,充分锻炼了我们团队的从选题、准备、数据收集、清洗,再到思路策划分析全过程的配合,虽然团队成员不多,但是过程中的沟通协调依旧花了很多时间,各种方案反复推倒重来,在这个过程中也有很多其他人员给了很多无私的支持,最终这个可视化报告能够得以实现,除了团队的韧性和坚持,还要感谢给予帮助的一切其他同行、参赛对手和导师,相信以后有你们,数据分析这个道路将越来越宽广而有意义! |