【2022BI数据分析大赛】在线教育平台的分析
作品选题
随着互联网与通信技术的高速发展,学习资源和学习手段呈现出新的趋势,各种线上教育平台、录播课、直播课等层出不穷。尤其时2019年至今,在疫情占据我们大部分时间的情况下,教育部提出“停课不停学”的要求,互联网成为“互联网+教育”的重要展示阵地。
本次选择某教育平台近两年的运营数据,通过多角度(学生选课情况、地区选课情况、课程项目收费与受欢迎程度等)分析线上教育平台如今该如何更好的服务给用户。
一、选手简介
1、选手介绍
(1)个人选手版
个人介绍:帆软社区用户名小王王王,目前就读于金陵科技学院,专业为数据科学与大数据技术。个人比较感兴趣的方向和领域和数据可视化,觉得将大量繁琐的数据通过图标的方式展示出来是一件比较有意思的事情。知道这次比赛是我的老师告知我的,因为在校期间也使用过finebi,同时也通过了其认证,因此报名了此次比赛。
个人照片:(暂无)
2、参赛初衷
希望通过比赛实践能更加了解BI工具的使用,同时希望可以做出一些有难度的图表
积累自己的一些实践经验
大赛奖励很诱人
二、作品介绍
1、背景
2019年至今,受疫情影响,各大在线教育平台积极响应政府号召,面向学生群体推出免费直播课程,线上教育用户规模迅速增长。
近年来中国网民规模不断扩大,互联网普及率连年上升,越来越多人接触并使用互联网,使在线教育拥有广阔的市场基础。
需求痛点
用户流失速度较快,无法保证保证用户长时间的使用此教育平台
在线上教育发展速度如此之快的今天,线上APP层出不穷,例如学习通、mooc、钉钉、腾讯会议等软件,该如何保持良好的竞争优势。
2、数据来源
自选数据:2020年泰迪杯数据
全部信息.xlsx:所有全部数据(以下数据集是对本数据集进行处理的)
Login.csv:包括用户每次登陆时间、登录地点
Study_information.csv:每个用户选择的课程id,加入此课程的时间以及学习进度和课程的价格
Users.csv:每个用户的学习时长
用户地区切割.xlsx:主要包括用户的在注册时使用的国家、省份和地区
评价关键词.xlsx:对知乎200条评论中出现次数前30的词语的占比
3、分析思路
在线教育平台的运营,离不开地区的经济实力,因此需要从海内外同时分析。在线教育平台最能吸引人的地方还是它的营销策略以及课程的质量,因此还需要从课程角度开始分析。同时也教育平台面向的用户出发,以及在大量用户流失之后应该做出怎么样的对策。
从用户分布地区,可以想到此教育平台主要面对的受众用户分布在哪一块地区,同时可以制定出相应的营销策略,该如何推广到一些经济欠发达和海外地区。
用户使用情况:从平均使用时长、不同时间段使用人数以及工作日与非工作日的对比情况可以分析不同的课程的主要受众,同时针对不同受众推出相对应的课程。
课程分析:从课程的价格分析,可以合理制定课程的价格,避免用户的流失以及对于教育平台自身来说,如何获得利益最大化。
用户流失情况:从用户流失情况分析,在哪一个阶段用户最容易流失,同时对于不同分类的用户该如何制定合理的策略吸引、挽留一些新用户以及老用户。
建议:不同人对线上教育的看法,平台该如何改进,同时针对不同身份的人提出更加合理化的建议。
4、数据处理
评价关键词,由于数据是文本,目标是提取文本中高频词,因此使用python的jieba库对文本内容进行分词并计算占比
代码如下:
for keyword, weight in extract_tags(data,topK=30,withWeight=True):
print('%s %s' % (keyword, weight))
因为想制作词云图,但是由于数据只有长文本,不知道该如何在finebi中处理,所以选择了python,最后将处理好的数据导入excel中
工作日与非公日区别数据集的处理
(1)首先将文本类型的日期数据转换为日期类型
(2)因为分析时间分段,所以获取时间数据集的“时”
(3)使用公式,“weekday”,将具体日期转换为“星期几”
课程价格数据集处理
由于原先数据集中出现空数据,首先过滤空数据
由于原先数据集中的学习进度是文本类型,同时字符长度不等以及出现了标点符号,因此处理比较复杂
遇到的困难:无法对既带有文本和标点符号的文本进行转换所以步骤较为复杂
最后通过分组汇总
学习进度数据集处理
通过给出的数据中的学习进度进行分组赋值
分为四组:已注册、结课、学习进度正常、学习进度缓慢
最后通过分组汇总对每一组人数进行统计
用户流失数据集处理
与学习进度数据集处理类似,首先筛选空数据,其次新增列,对每一列的数据进行分别赋值,分为三组:活跃用户、潜水用户和流失用户,最后分组汇总每一组人数。
登陆时间数据集处理
首先通过公式todate对登陆时间进行从文本字段转向日期类型
然后通过对登录时间中的“时”进行汇总
5、可视化报告
(可视化报告可按照组件或业务模块为单位进行描述撰写)
(1)第一部分:地区分布情况
首先设置仪表盘总体样式“浅灰”
本部分中一共包括五个组件,分别为地图、玫瑰图、颜色表格
一个全国性地图:可以比较直观的看出每个省份的分布人数,以及我国经济发达地区和经济欠发达地区的差距
首先将省份转换为地理角色(省/市/自治区)
图形属性选择矩形块,通过对不同地区的id求和来描述矩形块的大小,标签为省份和id求和数
两个省份地图:为了更加细致观察此线上教育平台开展较好的地区
首先将地区按地理角色分成经纬度,同时将记录数拖入颜色,可以明显的观察哪个城市推广效果更加明显
最后设置两个组件的组件样式,设置组件背景为标准
玫瑰图制作:地图不能清楚的表达数据的具体分布情况,因此选用玫瑰图进行更近一步的展示
将玫瑰图的角度设置为对id求和,半径为id求和的占比,同时将省份、占比、求和拖入标签图。
结论
通过海内外用户分布:
平台主要业务集中在中国地区,用户数占比在99%以上海外地区业务占比很小很小。海外用户平均登录次数相对较低,但该数据样本较少,并无显著的统计学意义,可忽略。
建议
此线上教育平台的主要受众主要分布在中国地区,说明该平台可以策划对海外市场的进一步开拓尝试,以此来打开自身的市场。
国内用户分布:
从地理分布来看,该平台业务覆盖较为全面,全国各省份皆有用户分布,主要服务人群以华中、华南、华东地区用户为主,相对较为偏远的地区:西藏、新疆、内蒙等则分布较少,同时港澳台地区也涉及较少。
主要省份为:广东、湖北、北京、江苏、山东、浙江等 地区, 同时通过将排名前两位的广东和湖北省更加进一步分析,可以发现在其省会城市和经济较发达城市,如广州、深圳、武汉等地区的用户登录次数较高。但是通过总的数据占比可以看出,此次在线教育平台主要在广东省推广。
建议
对于使用人数较少的地方,需要大力推广普及;但对于用户人数较多的地区应该增加调查,探索该地区用户的特点和与其他地区的核心差异所在,为以后指定营销方案提供基础。
(2)第二部分:用户使用情况
本部分中共使用了三个折线图,分别对不同地区的用户的平均时长、不同时间段的登陆人数以及工作日与非工作日登录人数进行了对比
选择横轴时长,纵轴为平均学习时长,同时设置警戒线,更加方便不同省份与全国平均学习时长的对比
不同时间人数分布,使用折线图,对登录人数求和,同时设置闪烁动画
工作日与非工作日的区别的图制作同上,最关键的还是对于数据的处理
结论
通过以上图表可以看出:我国使用次教育平台的平均时长为937.23,大部分城市超过了平均水平,但是仍存在较少城市学习平均时长较低,最低的是香港,但有可能原因是未普及,同时也存在一些偏远地区的省份存在学习时长较低的情况。我国湖南省、上海市、贵州、广西等地区的平均时长较高,最高位湖南省的1903
通过观察每日不同时间段的登陆人数,可以看出, 主要活跃时间在8点至23点,三处峰值在9至10点、14至15点与19至20点,凌晨登录人数较低,这与大部分的生活作息、身份(学生、上班族等)有着密切的关系,同时也不排除一些额外因素。
在将数据推广至工作日与非工作的角度去分析: 不同时期用户活跃度差异:相较于非工作日,工作日各个时段的登录量均远高于非工作日的登录量工作日平均登录登录量:9720、非工作日平均登录量:6410工作日和非工作日的登陆频次基本一致,均在上午 8:00-11:00, 下午 14:00-17:00,晚上 20:00-21:00 出现三个高峰,波动趋势基本一致。工作日中上午、下午、夜间的登录表现程一定程度的递减非工作日的三个时间段的登陆表现则较为均衡
建议
通过每日活跃度和是否工作日的活跃度对比来看,在搞活跃阶段,应该保证浏览器的正常运行,避免高峰时间的拥堵、卡断
(3)第三部分:课程分析
本部分使用面积图和柱形图分别对学习进度与课程价格之间以及选课人数前十的课程进行了一个展示
面积图:将价格拖入横轴,课程(求和)、学习进度(求和)拖入纵轴
柱形图:对id去重计数,筛选出最大的N个
结论
通过折线图发现——随着课程价格的上升,平均学习时长呈现出波动上市的趋势。但是学习平均进度最高的还是免费课程,但是相对于付费课程来说,价格越贵,用户投入成本更大,在一定程度上重视程度也更高,因此不能证明学习进度与价格之间一定存在某种正向的关系 。
通过最选择课程人数前十的课程分析来看,其中前十中有6个免费课程,4个为付费课程,但是付费课程的价位都为109或者299,没有过高。
同时对免费课程参与人数较多的原因可能是存在学校需求,而并非自愿参与。
建议
平台自身也应该丰富自己的课程的内容,同时合理删除一些价格昂贵或者一些选择人数较少的课程,同时在推出课程时,需要明确自身针对的客户人群,同时在选择课程时,需要明确每一项课程的特色所在。
(4)第四部分:用户流失情况分析
本部分使用折线图、组合图以及漏斗图对用户流失情况进行了一个分析
折线图通过处理好的数据,将据上次登录时间拖入横轴,人数(总行数)拖入纵轴
组合图,选择柱形和折线图,将id求和设置为左值轴,id占比设置为右值轴
漏斗图:通过id求和来设置颜色和大小,同时将学习进度拖入标签和细粒度
结论
通过折线图可以看出,大部分在登录第七天之后都未登录过此平台,在第七天时出现峰值,同时在接下来的每天,每天都存在用户流失,平均每日流失42个用户。
我将数据分为三类,0-60天为活跃用户,60-90天为潜在用户,90天以上的为流失用户,由此可以看出,流失用户占比较高。
对课程的观察,大部分用户都是已注册状态,而并未开始学习,这说明大部分的用户只是应要求进行了注册,在后续并未真正使用。
建议
对于流失用户方面来说,应该精准销售,对于活跃用户应该采取优惠等吸引手段,对于潜水用户应该降低价格、精准销售。
(3)最终结果呈现的页面布局
三、参赛总结
1、FineBI工具
我觉得在使用BI工具做可视化报告之前,最重要的是对数据集的处理,理清这个主题的思路,再通过创建自主数据集,才能完成最后一步,对数据的可视化。
我觉得BI工具比较亮眼的地方还是在于BI工具属于几乎零代码的可视化工具,上手较快,同时在做图表种类多,可以从多个角度启发对这个问题的思考。
FineBI软件在本地计算机上以“浏览器/服务器”形式安装和运行,用户通过浏览器打开默认的本机网址,通过用户名、密码登录后进行分析操作,分析结果通过网页形式发布和分享,这样只需要知道网络链接,使用浏览器即可访问分析内容,数据用户不需要预装软件,也不受终端操作系统的限制。
数据可视化分析的价值在于让人能准确快速地从中获取有价值的信息。具体来讲,数据可视化分析的价值在于通过工具运用,帮助用户解决发现问题、解释问题和解决问题,有助于企业高效、清晰的查阅数据表现,通过明确的分析数据中所隐含的内容有利于企业做理性业务决策。
2、参赛总结
得知此次比赛时通过我的一位老师,因此此前接触过finebi工具,同时对此也比较感兴趣,就以个人参加比赛。在此次比赛中,我觉得在使用finebi制作图表前,最重要的还是对数据的处理,数据的处理决定了我接下来每一步的方向以后仪表板完成的进度。所以在我制作仪表盘时过程比较简单,我的大部分时间还是将一些数据转化成我想要的格式和内容。
我始终认为每一次比赛都是一次经验的累积,尤其是在自己比较感兴趣的方面。对于我来说时间有点紧迫,并且此次参加比赛是自己一个人,所以可能考虑的方向角度比较少,但是仍然希望自己能在这次比赛中活得一些经验,同时对FINEBI的工具的使用可以更加熟练,同时也希望自己在以后,可以制作出一些更加高级的图表。