【2020冬季挑战赛】电商那些事-基于人,货,场的电商平台数据分析
1、选手简介1.1.选手介绍
社区用户名:枫城
职业简介:各位小伙伴大家好,我是一名BI工程师,现就职于杭州云嘉云计算有限公司就职的部门为IT产品研发部,平时主要工作内容是使用帆软BI和report给乙方霸霸进行一些demo页,驾驶舱的制作。次要内容是保证数据源的准确性和全面性,为此我需要做一些数据清洗和数仓相关方面的工作。在工作之余,我还在学习AI,希望可以和兴趣相同的朋友多多交流探讨。
1.2.参赛初衷
我想抓住每一个能锻炼自己的机会,既然走上了BI这条路,那么可视化分析是必不可少的,想通过比赛了解到自己的不足,以此更好成长。
比赛丰厚的奖励,相比往届可视化大赛,这届冬季挑战赛无论是奖项还是福利都准备的蛮到位的(希望帆软主办方继续保持这个好习惯)。
这是帆软今年最后一个大活动,作为和帆软已接触4年的我,不想因为错过,给自己留下遗憾,同时也是为明年更好的在社群活跃打好基础,(其实因为不参加,参加嘉年华就不知道该聊些啥话题了/(ㄒoㄒ)/)。
2.场景介绍总体遵循分析方法论:数据分析流程主要分为以下7步,a、明确分析需求,b、制定分析计划 c、数据拆分建模 d、执行分析计划 e、展示分析结果 f、产出商业决策 g、验证决策效果 (由于是可视化分析报告f,g在这边不做展示)2.1.业务背景介绍&数据来源
业务背景介绍:小风是一名刚入职的BI工程师,在试用期结束期间,导师拿着一份电商数据给到小风,要求其给出合理分析结果
分析目的:小风通过分析电商平台两年内的销售情况和发展情况,找出平台发展对应结论,并给出相应改善建议。
数据来源:个人获取数据:kaggle比赛中公共的数据集
2.2.分析思路首先我们明确这次分析的目的,目的是分析得出电商平台相关结论,并就问题点给出相关建议,再经过SWOT,5W2H等分析方法挑选后,我这边还是决定采用传统的人,货,场的角度进行分析。a、首先场的维度我们分析平台销售的健康情况和销售分布情况。可以得到平台销售的分布特点和增长趋势。b、接着我们通过货品分析,了解到该平台,品类销售情况和产品的价格带在哪个位置,以此可以进行ABC分类的优化和了解平台产品定位,同时我们通过评分还了解到产品体验还有待优化,并尝试定位产品低评的原因c、接着会员分析,我们了解到会员的增长趋势和会员的分布情况,发现会员也大量分布在巴西沿海,同时我们还通过AARRR模型和RFM模型了解到会员转化率情况及消费属性,并确定了重要价值客户的占比和地理分布位置,客户分层,有利于精准营销。同时通过分析会员订单了解会员消费时间点和消费方式及平均付款时间。同时也通过会员的评分,了解到会员的潜在诉求。d、其他分析-物流分析,最终分析了该平台的物流情况,发现物流不准时占比偏高,物流时间也偏长,但同时物流费用占比订单费用偏高,人们的消费和收到的服务不成正比,同时通过低评的不准时占比和物流时间验证该猜测,确定低评现象和物流服务有关。e、就以上结论和现象进行相关改善建议整体分析脑图如下所示:
139566
2.3.数据整理数据内容:
基础数据表主要为以下9张,如下图所示,AAARR模型表,巴西各州辅助表,表关系,地区经纬度表是我通过其他途径获得的辅助数据表。
表名中文名主要内容类型
Olist_customers_ordaset顾客表会员情况表基础表
Olist_geolocation_dataset地理位置表各州位置基础表
Olist_order_items_dataset订单产品表订单产品内容基础表
Olist_order_payments_dataset付款表付款相关内容基础表
Olist_order_reviews_dataset评论表评论相关内容基础表
Olist_order_dataset订单核心表主表基础表
Olist_products_dateset产品表产品信息基础表
Olist_sellers_dataset卖家表卖家信息基础表
Product_category_name_translation巴西文类别转英文表为了把类语言转化为英语基础表
AAARRAAARR模型表AAARR模型数据辅助表
地区经纬度巴西各城市经纬度表巴西按邮编去重的城市表辅助表
巴西各州辅助表巴西各州中文表巴西各州转中文,并带经纬度辅助表
主要用到自助数据集宽表为:订单核心各维度聚合宽表,RFM模型表
整理过程:第一步:获取:登录kaggle,下载公共数据集,需要翻墙和拥有kaggle账号。(想去Kaggle参加竞赛的朋友可以找我要翻墙工具)第二步:清洗:为了保证源数据准确性,将上述9张EXCEL基础数据做去重及异常值处理(如数据查重,时间值前后,金额正负等常规判断),通过EXCEL配合相应函数完成,因比较简单,这边不做过多叙述。第三步:导入传入到帆软BI,并为了方便操作,将每张EXCEL表单独创建一张宽表,作为维度表。(方便单表添加字段或维护),为后续制作大宽表打下数据基础。第四步:主要宽表制作(1)订单核心各维度聚合宽表。a、以Olist_order_dataset为核心表,链接各维度表,创建订单核心各维度聚合宽表。其表间血缘关系如下所示。139488
b、选取订单核心表,通过左右合并依次和各维度表进行合并139490
c、增加过滤只需要2017年至2018年的数据139491
d、新增列是否准时 通过预期物流到货时间和实际到货时间比较139492
e、新增列新老会员139493
f、订单核心各维度聚合宽表创建完毕,其雪花模型如下所示。139494
第四步(2):主要宽表制作(2) RFM模型表a、首先取订单核心各维度聚合宽表对应字段。139496
b、新增列,距今消费时间天数,后续可计算平均消费时间天数,并以此判断R值139497
同理,通过会员消费频次,计算平均会员频次,比以此进行F值计算同理,通过会员消费金额,计算平均会员消费金额,并以此进行M值计算。c、合并RFM,对R,F,M进行拼接139498
d、通过IF函数对RFM进行中文定义139499
至此相关数据处理完毕,数据整理告一段落。
2.4.完成分析报告a、整体框架:整体排版按照故事的叙事来进行排版,具体为如下板块,任务背景,明确目的->“场”分析->“货”分析->”人”分析->其他分析->总结建议。b、图表选择:图表选择可以看这张图,了解下每种图偏向的分析内容。139500c、分析思路和对应结论场分析:通过季销售趋势图及环比,还有各州金额分布分析了解平台销售走势和销售分布,了解平台销售是否健康及销售重点区域。1398311398331)发现相较2017年,2018年的销售金额和销售量呈环比上升趋势,最近两季度略微下降,趋向平稳。平台客单价在175Reals/单浮动。说明平台整体的态势还是向上发展的。2)了解到订单来源主要来自巴西沿海各州,其中圣保罗州,里约热内卢州,米纳斯吉拉斯州为订单量产出州TOP3,而反观巴西内地产出偏低,小风猜测这也许巴西经济中心集中在沿海各州有关。pS(原本两年的销售形式想用旋风图呈现,但不知怎么的旋风图坐标一直放不好,作品提交后,旋风图才制作出来,过几天论坛可以分享下旋风图制作过程)
货分析:通过帕累托分析品类销售情况,散点图探究品类宽度和销售关系,再通过价格带分析,了解平台产品定位。通过评价占比了解产品满意情况,通过产品完整性分析验证猜测。1398341398351)发现health_beauty,watches_gifts,bed_bath_table这三个品类为该平台热卖品类,且18年销售均大于17年,呈上升趋势2)通过散点图分析,确认了宽度越宽的品类往往销售额也越高3)列出TOP10销售的产品,得到平台价格带定位在0-100 ,主要面向低端客户群体4)1-2分的低评占了评价的18%,平台服务有很大提升空间,探索其低分原因不是由产品本身不完整性导致的
人分析:分析平台会员走势了解平台会员健康情况,通过地图分布了解会员分布情况,通过AARRR模型了解会员转化率,通过环形图了解新老会员销售情况。利用RFM模型给会员分层并确定重要价值客户分布。利用会员行为分析了解会员下单时间,付费方式和平均付款时间,还知道会员低分占比及评论时间趋向。1398361398371398381)发现2017年至2018年会员总体呈上升趋势,但2018年第三季度呈现下滑状态。2)通过会员各州分布和城市分布发现,会员主要集中在圣保罗州,里约热内卢州,主要分布城市为sao paulo riode janeiro3)一般电商模型为AARRR模型,发现平台转化率在98%左右。4)发现重要价值客户占会员体系的17%,而重要价值客户也凭借着自己的高客单,高销量为销售额提供了主要贡献。5)会员下单主要集中在11点,16点,20点,喜欢用credit_card作为支付手段,平均付款时间在6.46小时。6)发现会员评分4-5分约占78%,总体好评居多,但1-2分也占据着13%,存在一定风险,可以适当优化,会员评论时间集中在11-12,21-23时间段。
其他分析:通过物流准时度分析,物流时间占订单时间分析,平均物流天数分析,物流运费金额在总金额的占比,来评估顾客物流服务投入产出比,通过低评的非准时占比和物流时间来验证猜测。1398401398421)顾客对物流服务的投入产出比低下,造成较大不满2)低评确实是由物流因素引起
对应建议:139845
d、颜色总体偏深色调布局,浅色系布局一直不好拿捏,后期再进行尝试,统一调整了字体和字号,让画面看起来更整齐美观,并在结论处对应指标做颜色标识,如代表好的指标为红色系,代表差的指标为绿色系,整个优化采取局部美化,完成时整体调优的方式调色网站推荐:Material Palette:http://www.materialpalette.com/,Flat UI Colors:http://flatuicolors.com/e、作品展示(有些模糊,原图太大,放不进来,只能压缩,将就着看了,有兴趣的可以下载PDF看)139589
2.5.总结感慨:终于写完了,果然deadline是第一生产力,同时遵循着二八定律,(后面打算改改自己拖延症)经验分享:带着目的去分析,按照分析框架,循序渐进,去享受分析的过程。在此感谢保哥对我的作品给出的一些建议及平时亦师亦友的照顾。也感谢帆软官方组织这次比赛,给了自己一个交流和挑战的机会,希望帆软活动越来越丰富,精彩。让我们执着于理想,纯粹于当下,燃烧自己的数据魂,走好自己的数据之路,加油,数据人ヾ(◍°∇°◍)ノ゙。
140381
编辑于 2020-12-17 22:13