一、选手简介
1、选手介绍
(1)团队选手版
- 团队名称:左左左的数分宇宙
- 队长介绍:左家骏
- 成员介绍:丁小飞、樊闯
2、参赛初衷
- 学习了两年的数据分析,想通过比赛来检验一下学习成果,也认识到自己的不足。
- 希望通过比赛实践提升BI工具的使用方法和技巧
- 和更多数据分析大神交流学习,进行数据可视化作品以及分析思维的激烈碰撞
二、作品介绍
1、业务背景/需求痛点
- 简述业务背景,如:
- 2023年是疫情结束后的第一年,预期2023年旅游业会迎来巨大复苏,旅游业收入会得到大幅增长,但2023年上半年的数据并不乐观。
- 简述需求痛点,如:
- 营销大区每月要做一次经营分析,从销售大区的核心指标开始分析完成情况,完成经营分析报告,并完成数据洞察汇报给营销线各负责人。
- 通过分析2022年和2023年劳动节期间本市景区的有关数据,来分析背后的原因,并结合游客画像及不同类型游客的景区游览路线。
2、数据来源
3、分析思路
- 围绕分析主题,根据旅游业特征,借鉴电商的“人货场”三要素,我们总结了旅游的三个要素:人、出行方式、景点。
- 人:我们根据人的特征进行画像,比如性别、年龄、省份等等进行划分,其中我们以少年(18岁以下)、大学生(18-22岁)、青年(22-35岁)、中年(35-60岁)、老年(60岁以上)对年龄段进行划分。
- 出行方式:出行方式在数据中有三个方面体现,分别是:游客类型、来浙方式、购票渠道。
- 景点:对景点的分析方向分为:景点热度、景点评价两个方面,景点热度可以针对不同的年龄段进行对比分析。
整个分析流程为:描述性分析推断性分析建模分析得出结论。
以上是我们整体的分析思路,但因为身体抱恙,近期频繁往返于医院,部分分析未完成。
4、数据处理
- 1、首先进行简单的数据清洗,对一些字段进行一定的限制,比如各字段不能为空、年龄字段范围为0-100等等。
- 2、将整个旅游行业按照出行人群特征、出行方式、景点热度3个方面来进行第一个层面的分析,也是对单独的数据进行简单的描述性分析,如:年龄组成、性别比例、出行方式占比等。
- 3、对两个或多个数据进行推断性分析,如:不同年龄段对不同类型景点的偏好、不同年龄/性别在主门票/副门票等消费上的区别。
- 4、建模分析:根据对数据的解读,我们初步制定了借鉴rfm模型,以出行人数、评价均分、人均消费三个纬度来对不同的省份、年龄段来进行rfm模型分析,以得出最终推荐的广告投放目标人群。
5、可视化报告
(1)数据布局按照我们的分析思路从描述性分析推断性分析建模分析进行递进式布局
(2)通过分析得出的结论,如
- 男女出行频次比例接近1:1,但如果考虑到去重后,男女人数比例为2:1.
- 出行人群以青年(22-35岁)及老年(60岁以上)为主,其次是少年(18岁以下人群)、大学生(18-22岁),最后是中年(35-60岁)
- 来浙人群中购票渠道以美团、马蜂窝等第三方线上渠道为主,官网、线下窗口、官方小程序等官方渠道使用人数较少。
- 在来浙省份分析中,50%的人数来源于浙江、江苏、安徽、江西、福建、上海这6各省份,其中浙江本省出行占据25%。
- 出行方式的选择中,上海、江苏、福建、江西、安徽等浙江周边省份的出行方式以大巴、高铁、火车为主,在较远的省份出行时以高铁、飞机为主。
- 在景点收入方面,副门票及周边是景点收入重点,其次是主门票收入,最后是餐饮收入,其中副门票和餐饮收入趋于平稳,主门票收入中少年及老年收入较低,可能原因是因为学生及老年人优惠政策。
- 在景点热度方面,以主门票收入作为热度分析依据,其中人民剧院、奇妙世界、太阳岛、野生动物园、南山古镇、南山、Hive等为热点景区。但是南山、玻璃房、杜甫故居、李白故居、森林公园、大慈恩寺、金顶寺、市博物馆、矛盾故居等地有着较高的副门票及周边收入,结合景区信息维度表,景区以自然景观和人文景观为主更能吸引游客进行更深层次的游览。
- 最后是对景区满意度进行分析,其中杜甫故居、玻璃房、市博物馆等人文景观有有较高的环境满意度,服务满意度、项目满意度整体趋于平稳,桃子湖的满意度最低。
(3)可视化结果:
三、参赛总结
1、FineBI工具
- 在分析过程中,对纬度和指标的转化上没有很灵活,在分析数据时对有的数据的处理不是很明确,比如我想用bi工具实现计数功能研究了好久。
2、参赛总结
- 整个分析过程,也因为一点小插曲耽搁了进程,但好在有惊无险的完成了。
- 在分析思路上希望可以得到老师的指点,在bi工具的使用上还需要再精进。
|