【2022BI数据分析大赛】在线教育平台监控分析看板
Your browser does not support video tags.
一、选手简介
1、选手介绍
团队名称:咸鱼翻身队
队长介绍:咸鱼1号,目前就职于K12在线素质教育企业,从事在线教育BI报表开发和数据分析工作
成员介绍:咸鱼2号,目前就职于K12在线素质教育企业,从事在线教育BI报表开发和数据分析工作
结缘原因:我们是邻桌同事,“参加比赛吗?” “可以啊”,然后就组队报名了
2、参赛初衷
(1)通过比赛及主办方分享的资料,学习并掌握FineBI工具的使用
(2)使用过不太成熟的BI分析工具,而FineBI在行业有一定的知名度,希望通过比赛能模拟业务需求,衡量与FineBI的适配度
(3)借助本次参赛机会,重新梳理业务的逻辑规则,从全局层面加深对公司业务的理解与思考
(4)大赛奖励很吸引人
二、作品介绍
1、业务背景
随着2019疫情的侵袭,在线教育得到了快速发展,我司推出的k12素质教育课程平台也非常受3-12岁儿童的喜欢,用户量逐渐增加。然而到了2021年,发展的增速减缓,政府颁布双减政策,平台内与学科教育相关的课程也受到影响。
2021年的营收情况如何?我们的课程质量是否得到用户的认可?对学科相关课程的整改是否对大盘有影响?现有课程是否能满足用户对教育的需求?我们的用户分布是怎么样的?为了能持续地关注这些情况并且节省重复制作看板的成本,我们将数据接入Fine BI,对平台的运营情况进行可视化监控。
2、数据来源&导出
2.1 数据来源
数据来源:已脱敏的企业数据
使用到的数据如下:
表名
字段
dwd_用户订单表
order_id 订单ID
user_id 用户ID
pay_price 支付金额
pay_time 支付时间
refund_price 退款金额
refund_time 退款时间
item_id 课程ID
channel 渠道ID
finish_time 购买成功时间
is_first_prepay 是否首次支付
terminal 支付平台
pay_type 支付方式
dwd_搜索关键词明细
date 搜索时间
words 搜索关键词
dwd_用户信息表
user_id 用户ID
age 年龄
gender 性别
city 城市等级
dws_课程质量数据
course_id 课程ID
section_id 小节ID
take_cnt 上课人数
focus_cnt 专注人数
finish_cnt 完课人数
dim_课程
course_id 课程ID
course_type 课程类型
section_num 小节数
is_onsale 课程状态
dim_渠道
channel 渠道ID
channel_type 渠道分类
ads_日访购表
q_date 日期
active_user_cnt 活跃用户数
visit_page_user_cnt 访问购课页用户数
pay_user_cnt 支付用户数
ads_月访购表
q_month 月份
active_user_cnt 活跃用户数
visit_page_user_cnt 访问购课页用户数
pay_user_cnt 支付用户数
2.2 数据导出过程
我们在商讨好脱敏方案+写好取数sql后,准备对数据进行导出,发现企业系统每次导出的量最大是100w,意味着分析2021年一整年的用户订单明细数据,需要导出4个文件夹再导入到FineBI系统,其中导出的等待过程也比较漫长,从初次导数到领导确认数据脱敏质量过关前前后后导了三四次,是前期预想不到的耗时较长的过程┭┮﹏┭┮。其他表在积累了用户订单表的经验后,脱敏和导出的过程越来越顺利了。在真实企业使用场景中会使用sql连接,能够免去大量导出导入的过程。
3、分析思路
4、数据处理
4.1 订单表自助数据集
用户订单表中的课程和渠道字段均为ID,需要通过左右合并功能去连接维表得到具体的分类信息,做成订单表自助数据集,作为看板的重要底表数据
4.2 RFM自助数据集
首选在用户订单表中选择用户ID,支付金额,支付时间三个字段,然后以用户ID为维度汇总计算支付金额,最后一次支付时间,支付次数三个指标。再按照FineBI帮助文档依次新增列:“时间差”,“平均支付金额”,“平均支付次数”,“平均时间差”,“支付次数向量化”,“时间差向量化”,“时间差向量化”,“用户分类”等字段。
4.3 搜索关键词自助数据集
我们从企业系统中导出2021年的用户搜索语句后,导入python,利用jieba库做分词处理,得到八百多万条关键词记录,超出了excel导出的行数限制,最终写循环语句导出9个excel文件后一次性导入FineBI创建自助数据集进行关键词汇总,得到每个关键词的被搜索次数。
4.4 课程质量模型自助数据集
以课程为维度汇总上课、完课和专注的人数,用于后期创建专注率、完课率计算字段
4.5 GMV自助数据集
为了模拟真实业务场景,GMV的口径也沿用日常使用的口径:日期筛选范围内的GMV=日期筛选范围内的支付金额-日期筛选范围内的退费金额,想要在日报和月报将支付金额和退费金额放进一个折线图内,使用以订单为维度的用户订单表不能满足上述口径,因此新建一个自助数据集,以日期为维度汇总当天的支付金额和退款金额。
步骤一:创建以支付日期为汇总维度的支付自助数据集
步骤二:创建以退款日期为汇总维度的退款自助数据集
步骤二:左右合并连接上述2表得到GMV自助数据集
连接条件为日期
4.6 购物篮分析
我们原本还想做购物篮分析,通过研究用户的订单数据,挖掘两个课程或课程类型在用户购买上是否有联系。但是由于购物篮的数据处理过程是对订单数据进行笛卡尔乘积,全年订单总量达350w,笛卡尔乘积数据量太大,并不能计算成功。
5、可视化报告
5.1 日/月报
5.1.1 日期筛选和跳转按钮
时间筛选:通过时间筛选,可以筛选数据的统计时间范围。如,平台日报中提供日期筛选,平台周报中提供年月筛选
时间筛选通过明细过滤实现数据联动
跳转按钮:通过跳转按钮,可以实现看板之间的转换,便于进一步分析
5.1.2 整体营收总览
整体营收总览使用指标卡以及柱状图和折线图展示,让使用者直观清晰的看到公司各重点指标的执行情况。并且,加入了周同比增长指标,使用者可以通过同比增长了解业务的变化,及时作出应对。
GMV、支付金额和退款金额还分别通过柱状图和折线图的形式展现近30天的情况,从其中可以大致了解公司近30天的营收趋势,找到波动较大的时间,及时了解是什么时候、什么动作引起的变化。所有指标都通过明细过滤联动时间过滤器。
分析结果举例:
以2021年11月11日为例,首先可以看出该日GMV达到8040310元,且周同比增长达到100%以上,该日GMV有较好的表现。从其他重点指标卡的数据可知,虽然支付金额和退款金额都有不同程度上的增长,但支付金额增长率较大,且与退款金额相差两个数据量级,因此GMV也有较大程度上的增长。支付金额也可以拆解成支付人数和客单价的乘积,支付人数较上周同期增长61.25%,客单价较上周同期增长25.57%,两个因素同时增长促成了支付金额的大幅提升。
通过近30天总营收趋势图表可以看出,2021年11月11日是近一个月内营收表现最佳的一天,考虑到是双十一加大了课程的推广力度。
5.1.3 支付金额分析
支付金额分析包括课程拆解、渠道拆解和支付流程拆解三个模块。
课程拆解通过折线图呈现近30天各课程类型的用户支付趋势;使用环形图展示每种课程类型的支付金额占比,定位出最能带动流水的课程类型;通过词云展现当前最受用户喜爱的50个课程,便于总结特点,改良产品。可通过右方按钮切换至课程分析看板,深入了解课程售卖情况。
渠道拆解通过折线图揭示了近30天渠道支付金额趋势,便于监控各渠道类型,找出出现异常的拐点;用气泡图同时呈现各渠道类型支付用户数、订单量和支付金额三个重点指标的情况,便于考量不同渠道类型的综合表现,同时气泡图可以对渠道类型进行下钻,找到每种渠道类型中表现最为突出的渠道。
支付流程拆解将支付金额按照乘法拆解成DAU、转化率和客单价,分别通过柱状图和折线图展示了DAU、客单价和转化率的近30天趋势,便于使用者找出支付金额上升/下降的原因节点。
分析结果举例:
前面提到2021年11月11日的支付金额有明显的增长,从课程类型维度下钻,可以知道天文地理类型的课程提供了最主要的增长贡献,占该日支付金额的71.73%,继续下钻到课程类型,发现这一天卖得最多的是课程2635,当日购买量达到3176单。说明课程2635对学员吸引力较大,后面可以继续加大对这门课程推广力度。
从渠道类型维度下钻,当天支付金额大幅度增长主要在于投放渠道,该渠道支付金额对比前一天增长了五百多万。从右边的气泡图可以看出其实投放渠道支付用户数和订单量都不是最多,但是支付金额是最大的,表明当天该渠道客单价较高。其实投放渠道的效果虽然好,但是成本高,所以不会持续性投入,而是会在一些容易引起用户消费兴奋的节点有所动作,从而达到发挥最佳效果,从客单价就可以反映出该渠道可以刺激用户的消费积极性。
通过支付流程拆分,可以发现DAU并无太大的波动,转化率和客单价都有明显的增长,说明流量精准性较高,能抓住用户的转化兴趣点,促成用户付费。
5.1.4 退款金额分析
将退款金额按照退款类型拆分成“拼团失败自动退款”和“用户自主申请退款”,通过折线图的形式展示近30天的情况,目的是对用户退款行为的背后原因进行深一步的挖掘。
分析结果举例:
以2021年9月3日近30天的数据为例,退款金额曲线趋势稳定,拼团失败自动退款引起的退款金额比用户自主申请退款的退款金额多几万至几十万不等。为达成降低退款金额目的,可以对用户参与拼团后的动作进行监控,如优化客服话术,提高用户完成拼单的积极性。
5.1.5 用户支付分析
用户分析使用柱状图表现对于新老用户不同订单价格区间的订单量占比,分析出不同类型的用户的购买习惯。通过多系列柱形图呈现用户在访购转化过程中的漏斗数据,直观展示每个环节的流失情况,便于针对各个环节作出运营策略的调整。支付类型占比使用条形图呈现不同支付类型的占比和排行顺序。新老用户金额贡献主要分析不同类型用户对于支付金额的贡献度。
分析结果举例:
以2021年11月11日为例,新老用户的支付金额比率约为6:4,从订单价格区间分析可看出新用户中订单价格大于500的占比最大,老用户中订单价格小于100的比例最大,这也与双十一期间有效的拉新动作有密切关系。
从访购转化漏斗可以看出活跃用户到访问课程购买页的漏斗较大,而进入课程购买页到成功购买的流失比较少。需要找到吸引用户进入课程购买页的抓手,比如,美化商品略缩图;同时也需要在访购率上精益求精,比如,提炼购买页中课程的卖点,优化布局。
5.2 课程分析
课程分析看板分为5个部分,包括课程数量指标卡,用来展示售卖中课程和下架课程的数量;课程数量柱状图,展示每个课程类型的数量;课程质量模型,呈现课程之间的完课率和专注率比较;课程贡献分析,表现各课程类型对支付金额、订单量的贡献;搜索关键词词云图,展示用户自主搜索的关键词,字体越大代表被搜索次数越多;还有,价格分布图展示各类型课程不同价格区间的数量分布。这部分把课程id和课程类型拖入同一钻取目录,因此在使用者分析时可以对课程下钻。
分析结果举例:
以纵观历史这一类型为例,纵观历史是上课人数最多的课程类型,下钻可见整体课程质量较好,390课程专注率较高,但是完课率比大盘低,需后续调研是否存在课程节奏等问题,导致40%的用户不能完成85%课程进度。第三象限专注率和完课率指标表现较差,可适当下架课程,减少运营和人力成本。
课外拓展和天文地理贡献了大盘47.86%的支付金额,是平台的重要收入来源。
课外拓展、名人著作、纵观历史三个课程类型的订单量最高,合计占比大盘46.62%,深受3-12岁用户的欢迎,向偏好学科类课程的用户推送这三类的课程,减缓双减带来的影响。
平台首页有课程推荐机制,而用户搜索的词语能反馈出平台未解决的用户需求,从用户搜索记录词云图可以看出用户有“英语”,“数学”,"拼音"这些学科方向的需求,其次是“故事”,“名著”,“历史”等课外阅读类和“围棋”思维锻炼类需求,后续需优化推荐机制,并围绕上述关键词优化/设计相关课程以满足用户需求。
5.3 用户分析
用户分析看板主要使用RFM对用户进行分层。通过平均指标卡展示全体/联动的用户类型的平均支付金额、平均支付次数、平均时间差;使用矩阵树状图展示各类用户的数量及占比,直观展示当前的用户类型结构;城市等级分析通过柱状图展示用户数在不同等级城市的分布,该部分可联动用户分类;价格敏感度分析通过堆积柱状图展示各类用户购买各价格区间的订单量;支付金额贡献分析通过饼图的形式展示各类用户的支付金额及占比;RFM特征雷达图展示了各类用户在消费金额、消费次数、最后一次消费时间差的表现;用户明细表则展示每位用户RFM关键指标的情况,包括时间差、支付金额、支付次数,并对每位用户打上分类标签。
分析结果举例:
通过RFM划分全体用户,可以发现一般挽留用户占比最大,将近全体用户数量的一半,这部分用户的特点是最后一次消费时间远,消费频次和消费金额较低;占比第二的是一般发展用户,他们最后一次消费时间近,消费频次和消费金额较低,是平台的新用户,需做好新手指引提高用户的ltv;还有近10%的重要价值用户,最后一次消费时间近,消费频次和消费金额都较高,是平台的忠诚用户,需要定期维护。
从支付金额贡献分析的呈现可知,重要价值用户(9.99%)贡献了最多的支付金额(61.8%),因此对于重要价值用户要更精细化运营,提供优质的体验和个性化服务,增加其销售机会。
通过联动,对全体/选中的用户类型用户的城市等级分布和价格敏感程度进行分析。
5.4最终结果呈现的页面布局
在线教育课程平台日报:https://bisolutions.fanruan.com/webroot/decision/link/IOBe
在线教育课程平台月报:https://bisolutions.fanruan.com/webroot/decision/link/DfAm
在线教育课程平台课程分析看板:https://bisolutions.fanruan.com/webroot/decision/link/Sul0
在线教育课程平台用户分析看板:https://bisolutions.fanruan.com/webroot/decision/link/DEor
三、参赛总结
1、FineBI工具
(1)数据加工快速。FineBI可以通过建立自助数据集对数据进行加工处理,本次项目中尝试了过滤、分组汇总、新增列、合并表等操作。在处理过程中都反应快速,操作简易,可追溯每个步骤。
(2)数据可视化丰富。FineBI提供了丰富的组件,不仅有各式各样的图表,还能调整颜色、大小、形状、标签等属性,无限的排列组合,能够让用户对可视化尽情探索,便于用户找到合适的数据呈现形式。
(3)仪表板联动顺畅。筛选项与组件,组件与组件之间的联动十分智能顺畅,通过组件的明细过滤可以实现与筛选项的联动,组件之间可以根据字段自动建立默认组件,在使用看板过程中对某个组件的数据进行点击可以引发一系列联动组件的变化。
(4)自助数据集可容纳数据量有限。原本想在本次比赛中加入购物篮分析,但是购物篮分析的操作需要对数据进行笛卡尔乘积,数据量会随之增加,导致自助数据集更新不成功。在互联网公司的实际应用中,不乏要处理数据量比较大的情况。
2、参赛总结
(1)FineBI的使用感受是非常容易上手,在参加打卡课后,绝大部分问题都能够在帮助文档中得到解答,参赛群的指导老师也会及时地解答一些疑难杂症。即使需要创建复杂图表,整个过程的卡点很少。
(2)遇到的困难是我们没能很好地掌握整个项目的节奏,我们一开始花了3周时间去做出两个版本的方案,并将2个方案进行比对选出其中一个参与比赛,期间还有一位组员因为工作任务繁重而退出比赛,其次比较波折的是脱敏和数据的导入导出在前期耗费时间太多。这两个情况导致后续很多进度都赶不上,后续为了平衡工作且能尽所能地把看板完成得更好,我们经常利用晚上的时间去开会讨论和制作看板。经过这一次经历,我们积累了不少对项目合理规划的经验。
(3)我们在工作中常常沉浸在业务提的数据需求当中,并不能全面地考量大盘状况,而我们借助本次参赛机会,重新梳理业务的逻辑规则,从全局层面加深了对公司业务的理解与思考。