一、选手简介
1、选手介绍
(1)团队选手版
- 团队名称:烈日炎炎
- 队长介绍:李晟洁,目前就职于京东集团(公司),数据科学家,目前从事数字城府,一网统管领域的业务,个人感兴趣的方向和领域为城市计算、移动感知、数据挖掘。
- 成员介绍:邹炎炎,目前就职于京东集团(公司),算法工程师,目前从事京东主站的搜推算法,个人感兴趣的方向和领域为NLP应用领域。。
2、参赛初衷
- 借助比赛了解和学习一下FineBI的使用,提高以后工作的数据分析效率
二、作品介绍
1、业务背景/需求痛点(To Government)
近年来,共享单车作为一种新型的出行方式渐渐地在市民日常出行中被广泛使用,其在城市中受到极大的欢迎很大程度上要归功于其与市民日常出行习惯贴合度以及便捷性和易用性。共享单车在一定程度上补上了城市公共交通的短板,但也衍生出“野蛮生长”“盲目投放”“无序停放”“粗放管理”等行业乱象。共享单车停车乱象频发的主要原因是冗余投放,即共享单车企业为抢占市场份额,虽然在交通部门备案了投放数量,但企业未完全按备案数量进行投放,实际投放量严重不平衡,没有充分考虑城市的可容纳量,盲目投放共享单车,投放数量远超需求数量,造成车满为患、冗余投放等现象严重。
为有效解决共享单车“冗余投放”“无序停放”等问题,各地政府亟需对共享单车的情况进行深度分析,打造共享单车创新应用场景,实现高效、精准、自动化识别企业冗余投放行为,以便优化市容环境和降低资源浪费,对共享单车企业进行约束,并指导末端处置人员进行及时治理,在规范共享单车停放秩序,营造良好出行环境的同时,助推全国文明城市的创建。
2、数据来源
- 政府数据:
- 地铁站周边共享单车数据,包含字段如下:<日期、小时、地铁站名称、单车种类、活跃车辆数、低活跃度车辆数>
- 地铁站出入站刷卡数据,包含字段如下:<时间戳、地铁站名称、进站人数、出站人数>
- 地铁站基本信息,包含的字段如下:<地铁站名称,经度、维度>
3、 分析思路
1) 具体的问题定义是什么?
根据地铁站附近历史在线车辆信息和地铁站人流量信息自动、准确的分析存在冗余投放共享单车情况的共享单车类别、地铁站名称、日期、冗余投放数量。
- 冗余投放:投放的单车数量超过实际需求量
- 在线车辆信息:为了商业竞争,各家公司真实投放的单车数量与上报至交通管理部门的单车数量并不一致,所上报的单车信息也是部分单车的信息。在线车辆指的是企业上报给交管部门可以实时查看的共享单车车辆信息。
- 地铁站人流量信息:地铁站乘客的OD信息
- 自动:无需人员检查、自动分析
- 准确:找到的站点均保证存在超额投放的情况,但无需找到所有冗余车辆投放站点,追求Precision 而不是Recall
- 共享单车类别:美团、哈罗、滴滴
- 位置:地铁站点名称和所处位置
- 时间段:存在超额投放情况的时间段
- 结果定义:
- 展示存在冗余投放的地铁站点Top10、以及各站点冗余投放的日期、单车类别、数量等详情。
- 对比低活跃单车(超过2天未被骑行的单车)的地铁站和冗余投放的地铁站,如低活跃单车较多,且还存在冗余投放,表明为重点关注地铁站。
- 地图撒点地铁站位置,点击可以查看单车流量和地铁站流量的详情。
- 数据更新周期为每月。
- 粗略结果原型如下:
2) 为什么要定义这样的问题?
- 价值点
- 优化市容环境和降低资源浪费:1)快速发现冗余投放情况,向监管部门提早预警,及时治理,提升市民出行满意度;2)以地铁站周边低活跃度单车和冗余单车为切入点,为专项整治行动提供抓手(地铁站关注的优先级)
- 为有效监督共享单车市场环境提供数据依据:及时发现冗余投放单车的企业,帮助政府进行企业监管,减少企业乱投放行为。
- 挑战
- 地铁站的真实单车需求量难以估计:人在不同时间段的出行规律不同,导致同一站点、不同时间段的单车需求不同
- 冗余投放难以辨别:出行规律的变化、重大赛事活动都会使得在线单车数量是随时间波动的,难以区分企业的冗余投放与正常的市民停放。
3)如何解决挑战并实现目标?
- 1. 计算各企业在各个地铁站每日在线车辆的数量峰值,作为当日的单车最大需求量
- 2. 以过去一周(工作日和周末要进行区分)为一个时间窗口,计算过去一周单车最大需求量的平均值
- 3. 计算当天的单车的最大量,与过于一周的均值进行比对
- 4. 同时计算当天的地铁站人流量与过于一周的地铁站人流量的相似度
- 5. 若某一企业在某一地铁站当天的单车的最大量远大于过于一周的均值(>50),且当天的地铁站人流量与过于一周的地铁站人流量较相似,则该企业在这一地铁站存在冗余投放共享单车的情况
4、数据处理
1) 依据“地铁站人流量_原始”表加工“地铁站人流量_加工”数据表
- 新建条件标签列“Weekday”,依据日期生成“工作日”和“周末”标签
- 与“地铁站人流量_原始”进行右合并,并过滤前一周的周中或周末数据
2) 依据“地铁站人流量_流量表”加工“地铁站人流量_加工”数据表
3)依据“轨道站点周边单车_原始”表加工生成“轨道站点周边单车_流量表”
- 将时间戳字段拆分,拆分成日期和时间
- 新建条件标签列“Weekday”,依据日期生成“工作日”和“周末”标签
- 与“轨道站点周边单车_原始”进行右合并,并过滤前一周的周中或周末数据
- 分组汇总,对过去一周的数据进行分组汇总,求日期均值
4)依据“轨道站点周边单车_流量表”加工生成“轨道站点周边单车_加工”表
- 分组汇总,对每日的数据进行分组汇总,按小时求最大值,获得每日的单车最大值
- 与“地铁站人流量_加工”数据表进行右合并,并过滤前一周的周中或周末数据
- 新增列,根据轨道站点当前日期和上一周日期的比较及地铁站的比较结果,判断是否存在冗余投放情况
5)数据表关联关系配置
5、可视化报告
(一)最终结果呈现的页面布局
(二)可视化实现流程
1)数值显示:当月平均低活跃单车(超过2天内未被骑行的单车)概览、冗余投放概览、在线单车总数量
- 静态指标定义:Def函数定义静态指标“各地铁站平均低活跃单车数量”、 “各地铁站平均单车数量”、“各地铁站冗余投放数量”
- 组件配置:配置数值可视化,以单车企业作为颜色区分,静态指标作为文本
2)Top地铁站低活跃单车情况和Top冗余投放地铁站情况
- 表格配置,地铁站为维度,低活跃单车数量和冗余投放数量分别作为维度进行配置,调整表格的风格,添加序号列
- 按照指标进行降序排序,且对指标进行筛选,添加过滤,筛选低活跃单车数量大于0的地铁站
3)日常低活跃单车详细情况配置
- 表格配置,地铁站为维度,低活跃单车数量和冗余投放数量分别作为维度进行配置,调整表格的风格,添加序号列
- 按照指标进行降序排序,且对指标进行筛选,添加过滤,筛选低活跃单车数量大于0的地铁站
4)日常低活跃单车详细情况配置
- 柱状图配置:地铁站、企业、时间类型作为维度,“各地铁站平均低活跃单车数量”作为指标,其中时间类型用于颜色区分。
5)冗余投放单车总量占比
- 饼图配置:地铁站名称作为维度,角度为冗余投放的数量(OversupplyNum),颜色为单车企业(Company)
6)地铁站地图进行撒点
- 地图组件配置:将地铁站的经度和维度转换为地理要素,分别作为横轴和纵轴,对地铁站进行撒点
7)地铁站人流量和单车流量展示
- 折现图绘制:以“地铁站人流量_流量表”中的地铁站名称(SName)、日期(Date)、小时(Hour)作为维度、当日进站数量(InNum)和上周平均进站数量(InNum1)作为指标,展示进站人流量随着时间的变化,且可以和上周的情况进行对比
8)配置流量展示仪表盘
- 通过Tab组件实现地铁站出站和进站的流量切换展示
- 通过树标签筛选实现对不同企业的单车流量查看
- 添加日期选择器,实现对日期的选择
9)配置主展示“冗余单车分析”仪表盘
- 将相关组件拖拽到面板中,添加文本组件编写标题
- 将仪表盘风格设置为“科技”风
- 配置不同组件之间的联动关系
- 为中间的地图组件配置跳转,实现点击地铁站查看“流量仪表盘”
(三)分析结论
1)低活跃单车情况
从企业维度看:目标城市在目标月份哈罗单车低活跃数量为400辆、美团单车低活跃数量为59辆,青桔单车低活跃数量为403辆。结合他们在线单车总数量(哈罗4217、美团3047、青桔4273)可以看出,该城市美团单车的利用率最高,青桔的利用率最低。
从地铁站维度看:目标城市低活跃单车数量最多的Top5地铁站为长寿路地铁站、李子园地铁站、桃浦新村地铁站、真北路地铁站、镇坪路地铁站。分别下钻到各个地铁站,可以看到各个地铁站在工作日和周末,周边低活跃车辆的数量没有明显变化,且与全局情况一致,美团的低活跃车辆占比较少,而青桔的低活跃车辆占比最高。
2)冗余投放情况
从企业维度看:目标城市在目标月份哈罗单车累计冗余投放3909辆、美团单车累计冗余投放408辆,青桔单车累计冗余投放288辆。值得注意的是,这里的冗余投放既包含区域投放新车的车辆数,还包括企业搬运到地铁站周边的车辆数。结合单车的在线总量,可以看出哈罗单车的搬运较频繁。
从地铁站维度看:目标城市冗余投放数量最多的Top5地铁站为隆德路地铁站、长寿路地铁站、武宁路地铁站、镇坪路地铁站、上海西站、桃浦新村。分别下钻到各个地铁站,可以看到各个地铁站的冗余投放情况主要由于哈罗和青桔企业产生的冗余投放,且哈罗的占比较大。进一步各个地铁站的冗余投放详情,可以看到哈罗企业于2023-06-17在长寿路地铁站冗余投放了230辆单车,结合长寿路地铁站的地铁站流量和单车流量情况,可以看到6月17日,长寿路地铁站的人流量和上一周相比并无明显变化,但是单车数量在凌晨1点相比于上一周出现了明显变化。
3)价值
根据以上数据分析和可视化,最终实现根据地铁站附近历史在线车辆信息和地铁站人流量信息自动、准确的分析存在冗余投放共享单车情况的共享单车类别、地铁站名称、日期、冗余投放数量,帮助政府部门精准掌握目标区域的单车冗余投放情况,辅助政府领导进行决策,建议如下:
综合低活跃度单车情况和冗余投放情况可以看到,长寿路地铁站、武宁路地铁站、镇坪路地铁站、桃浦新村这4个地铁站周边的低活跃单车数量较多,但是企业却仍然不断进行投放。一方面,在共享单车的专项整治行动中,可以将该4个地铁站作为重点进行专项整治,另一方面第三方搬运力量也可以根据该情况进行资源重新分配,更加合理的利用资源,降低共享单车带来的占道、乱停放等城市治理问题。
哈罗单车企业整体在目标区域的利用率较低,但却存在多次冗余投放情况,相关专业部门可以进一步决定是否和企业进行进一步情况了解或处罚。
三、参赛总结
- FineBI工具
- BI工具最厉害的不是可视化,是数据分析的能力。简单拖拉拽就可以实现以前用python写多行代码才能完成的数据处理工作,大大节省了我的数据分析所需要的时间,不得不说Fine-BI的是当前体验过的最好的BI工具。
- 用到的亮点需要点赞一下:
- 数据处理的每个功能我都给点赞
- 可视化的组件之间的联动关系自定义非常给力
- BI可以考虑优化的点:
- 数据处理加入一写聚类(Kmeans、Optics)、回归、分类(SVM、逻辑回归)等基础的机器学习算法,数据处理能力将提升一个逼格。
- 我的数据分析方法论:
- What-问题定义:需要先根据需求定义清楚问题,问题的定义包含目标和期望的结果两部分内容,要想的尽可能准确和具体。
- Why-为什么:想清楚解决这个问题的价值和挑战
- How-如何实现:所需数据及实现流程图,想清楚采用哪类技术和工具,采用这类技术和工具解决这类问题的技术挑战有哪些。
- How-Why:当前的实现流程要如何解决技术挑战。
2、参赛总结
- 感恩一下正在从事的领域和有着各种天马行空需求的客户吧!
|