找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,极速登录

【2020冬季挑战赛】电商那些事-基于人,货,场的电商平台数据分析

我是社区第82189位番薯,欢迎点我头像关注我哦~
1、选手简介
1.1.选手介绍
  • 社区用户名:枫城
  • 职业简介:各位小伙伴大家好,我是一名BI工程师,现就职于杭州云嘉云计算有限公司就职的部门为IT产品研发部,平时主要工作内容是使用帆软BI和report给乙方霸霸进行一些demo页,驾驶舱的制作。次要内容是保证数据源的准确性和全面性,为此我需要做一些数据清洗和数仓相关方面的工作。在工作之余,我还在学习AI,希望可以和兴趣相同的朋友多多交流探讨。
1.2.参赛初衷
  • 我想抓住每一个能锻炼自己的机会,既然走上了BI这条路,那么可视化分析是必不可少的,想通过比赛了解到自己的不足,以此更好成长。
  • 比赛丰厚的奖励,相比往届可视化大赛,这届冬季挑战赛无论是奖项还是福利都准备的蛮到位的(希望帆软主办方继续保持这个好习惯)。
  • 这是帆软今年最后一个大活动,作为和帆软已接触4年的我,不想因为错过,给自己留下遗憾,同时也是为明年更好的在社群活跃打好基础,(其实因为不参加,参加嘉年华就不知道该聊些啥话题了/(o)/)。

2.场景介绍
总体遵循分析方法论:数据分析流程主要分为以下7步,a、明确分析需求,b、制定分析计划 c、数据拆分建模 d、执行分析计划 e、展示分析结果 f、产出商业决策 g、验证决策效果 (由于是可视化分析报告f,g在这边不做展示)
2.1.业务背景介绍&数据来源
  • 业务背景介绍:小风是一名刚入职的BI工程师,在试用期结束期间,导师拿着一份电商数据给到小风,要求其给出合理分析结果
  • 分析目的:小风通过分析电商平台两年内的销售情况和发展情况,找出平台发展对应结论,并给出相应改善建议。
  • 数据来源:个人获取数据:kaggle比赛中公共的数据集

2.2.分析思路
首先我们明确这次分析的目的,目的是分析得出电商平台相关结论,并就问题点给出相关建议,再经过SWOT,5W2H等分析方法挑选后,我这边还是决定采用传统的人,货,场的角度进行分析。
a、首先场的维度我们分析平台销售的健康情况和销售分布情况。可以得到平台销售的分布特点和增长趋势。
b、接着我们通过货品分析,了解到该平台,品类销售情况和产品的价格带在哪个位置,以此可以进行ABC分类的优化和了解平台产品定位,同时我们通过评分还了解到产品体验还有待优化,并尝试定位产品低评的原因
c、接着会员分析,我们了解到会员的增长趋势和会员的分布情况,发现会员也大量分布在巴西沿海,同时我们还通过AARRR模型和RFM模型了解到会员转化率情况及消费属性,并确定了重要价值客户的占比和地理分布位置,客户分层,有利于精准营销。同时通过分析会员订单了解会员消费时间点和消费方式及平均付款时间。同时也通过会员的评分,了解到会员的潜在诉求。
d、其他分析-物流分析,最终分析了该平台的物流情况,发现物流不准时占比偏高,物流时间也偏长,但同时物流费用占比订单费用偏高,人们的消费和收到的服务不成正比,同时通过低评的不准时占比和物流时间验证该猜测,确定低评现象和物流服务有关。
e、就以上结论和现象进行相关改善建议
整体分析脑图如下所示:

图片.png
2.3.数据整理
数据内容:
  • 基础数据表主要为以下9张,如下图所示,AAARR模型表,巴西各州辅助表,表关系,地区经纬度表是我通过其他途径获得的辅助数据表。

表名
中文名
主要内容
类型
Olist_customers_ordaset
顾客表
会员情况表
基础表
Olist_geolocation_dataset
地理位置表
各州位置
基础表
Olist_order_items_dataset
订单产品表
订单产品内容
基础表
Olist_order_payments_dataset
付款表
付款相关内容
基础表
Olist_order_reviews_dataset
评论表
评论相关内容
基础表
Olist_order_dataset
订单核心表
主表
基础表
Olist_products_dateset
产品表
产品信息
基础表
Olist_sellers_dataset
卖家表
卖家信息
基础表
Product_category_name_translation
巴西文类别转英文表
为了把类语言转化为英语
基础表
AAARR
AAARR模型表
AAARR模型数据
辅助表
地区经纬度
巴西各城市经纬度表
巴西按邮编去重的城市表
辅助表
巴西各州辅助表
巴西各州中文表
巴西各州转中文,并带经纬度
辅助表
  • 主要用到自助数据集宽表为:订单核心各维度聚合宽表,RFM模型表
整理过程:
第一步:获取:登录kaggle,下载公共数据集,需要翻墙和拥有kaggle账号。(想去Kaggle参加竞赛的朋友可以找我要翻墙工具)
第二步:清洗:为了保证源数据准确性,将上述9张EXCEL基础数据做去重及异常值处理(如数据查重,时间值前后,金额正负等常规判断),通过EXCEL配合相应函数完成,因比较简单,这边不做过多叙述。
第三步:导入传入到帆软BI,并为了方便操作,将每张EXCEL表单独创建一张宽表,作为维度表。(方便单表添加字段或维护),为后续制作大宽表打下数据基础。
第四步:主要宽表制作(1)订单核心各维度聚合宽表。
a、以Olist_order_dataset为核心表,链接各维度表,创建订单核心各维度聚合宽表。其表间血缘关系如下所示。
截图202012081718392386.png

b、选取订单核心表,通过左右合并依次和各维度表进行合并
截图202012081719243126.png

c、增加过滤只需要2017年至2018年的数据
截图202012081719379593.png

d、新增列是否准时 通过预期物流到货时间和实际到货时间比较
截图202012081719505399.png

e、新增列新老会员
截图202012081720043384.png

f、订单核心各维度聚合宽表创建完毕,其雪花模型如下所示。
截图202012081720133529.png

第四步(2):主要宽表制作(2) RFM模型表
a、首先取订单核心各维度聚合宽表对应字段。
截图202012081720267931.png

b、新增列,距今消费时间天数,后续可计算平均消费时间天数,并以此判断R
截图202012081720352593.png

同理,通过会员消费频次,计算平均会员频次,比以此进行F值计算
同理,通过会员消费金额,计算平均会员消费金额,并以此进行M值计算。
c、合并RFM,对R,F,M进行拼接
截图202012081720451982.png

d、通过IF函数对RFM进行中文定义
截图202012081720568798.png

至此相关数据处理完毕,数据整理告一段落。

2.4.完成分析报告
a、整体框架:整体排版按照故事的叙事来进行排版,具体为如下板块,任务背景,明确目的->“场”分析->“货”分析->”人”分析->其他分析->总结建议。
b、图表选择:图表选择可以看这张图,了解下每种图偏向的分析内容。
截图202012081721079683.png
c、分析思路和对应结论
场分析:通过季销售趋势图及环比,还有各州金额分布分析了解平台销售走势和销售分布,了解平台销售是否健康及销售重点区域。
截图202012090942399042.png
截图202012090943103086.png
1)发现相较2017年,2018年的销售金额和销售量呈环比上升趋势,最近两季度略微下降,趋向平稳。平台客单价在175Reals/单浮动。说明平台整体的态势还是向上发展的。
2)了解到订单来源主要来自巴西沿海各州,其中圣保罗州,里约热内卢州,米纳斯吉拉斯州为订单量产出州TOP3,而反观巴西内地产出偏低,小风猜测这也许巴西经济中心集中在沿海各州有关。
pS(原本两年的销售形式想用旋风图呈现,但不知怎么的旋风图坐标一直放不好,作品提交后,旋风图才制作出来,过几天论坛可以分享下旋风图制作过程)

货分析:通过帕累托分析品类销售情况,散点图探究品类宽度和销售关系,再通过价格带分析,了解平台产品定位。通过评价占比了解产品满意情况,通过产品完整性分析验证猜测。
截图202012090943422233.png
截图202012090944129390.png
1)发现health_beauty,watches_gifts,bed_bath_table这三个品类为该平台热卖品类,且18年销售均大于17年,呈上升趋势
2)通过散点图分析,确认了宽度越宽的品类往往销售额也越高
3)列出TOP10销售的产品,得到平台价格带定位在0-100 ,主要面向低端客户群体
4)1-2分的低评占了评价的18%,平台服务有很大提升空间,探索其低分原因不是由产品本身不完整性导致的

人分析:分析平台会员走势了解平台会员健康情况,通过地图分布了解会员分布情况,通过AARRR模型了解会员转化率,通过环形图了解新老会员销售情况。利用RFM模型给会员分层并确定重要价值客户分布。利用会员行为分析了解会员下单时间,付费方式和平均付款时间,还知道会员低分占比及评论时间趋向。
截图202012090944408577.png
截图202012090944566747.png
截图202012090945102307.png
1)发现2017年至2018年会员总体呈上升趋势,但2018年第三季度呈现下滑状态。
2)通过会员各州分布和城市分布发现,会员主要集中在圣保罗州,里约热内卢州,主要分布城市为sao paulo riode janeiro
3)一般电商模型为AARRR模型,发现平台转化率在98%左右。
4)发现重要价值客户占会员体系的17%,而重要价值客户也凭借着自己的高客单,高销量为销售额提供了主要贡献。
5)会员下单主要集中在11点,16点,20点,喜欢用credit_card作为支付手段,平均付款时间在6.46小时。
6)发现会员评分4-5分约占78%,总体好评居多,但1-2分也占据着13%,存在一定风险,可以适当优化,会员评论时间集中在11-12,21-23时间段。

其他分析:通过物流准时度分析,物流时间占订单时间分析,平均物流天数分析,物流运费金额在总金额的占比,来评估顾客物流服务投入产出比,通过低评的非准时占比和物流时间来验证猜测。
截图202012090945319153.png
截图202012090945446029.png
1)顾客对物流服务的投入产出比低下,造成较大不满
2)低评确实是由物流因素引起

对应建议:
截图202012090949167374.png

d、颜色总体偏深色调布局,浅色系布局一直不好拿捏,后期再进行尝试,统一调整了字体和字号,让画面看起来更整齐美观,并在结论处对应指标做颜色标识,如代表好的指标为红色系,代表差的指标为绿色系,整个优化采取局部美化,完成时整体调优的方式
调色网站推荐:Material Palette:http://www.materialpalette.com/,Flat UI Colors:http://flatuicolors.com/
e、作品展示(有些模糊,原图太大,放不进来,只能压缩,将就着看了,有兴趣的可以下载PDF看)
截图202012081920323338.png

2.5.总结
感慨:终于写完了,果然deadline是第一生产力,同时遵循着二八定律,(后面打算改改自己拖延症)
经验分享:带着目的去分析,按照分析框架,循序渐进,去享受分析的过程。
在此感谢保哥对我的作品给出的一些建议及平时亦师亦友的照顾。也感谢帆软官方组织这次比赛,给了自己一个交流和挑战的机会,希望帆软活动越来越丰富,精彩。
让我们执着于理想,纯粹于当下,燃烧自己的数据魂,走好自己的数据之路,加油,数据人ヾ(◍°∇°◍)ノ゙。


21天打卡训练营.jpg
编辑于 2020-12-17 22:13  

冬季挑战赛-主题分析-枫城.pdf

6.66 MB, 下载次数: 375

参与人数 +1 贡献 +2000 F币 +2000 理由
兔子酱 + 2000 + 2000 恭喜荣获“最佳业务应用奖”

查看全部评分

发表于 2020-12-8 17:19:27
毛毛,怎么文章一个图表都没看到啊。

使用道具 举报

发表于 2020-12-8 17:37:39
枫大的作品还是一如既往啊~~

使用道具 举报

发表于 2020-12-8 18:08:20 发布于APP客户端
Wonderful!

使用道具 举报

发表于 2020-12-8 18:52:39
已经形成现象级的风格套路了,信息量大,图表选择配色也很秀,徐某佩服~

1 使用道具 举报

发表于 2020-12-10 10:10:31
学习

使用道具 举报

发表于 2020-12-10 17:40:04
AI的学习资源推荐吗

使用道具 举报

发表于 2021-4-1 17:43:53
小可爱 图片放大都不清晰了 看不清啊

使用道具 举报

发表于 2021-6-2 15:20:21
厉害  这数据源你是怎么想到的呀

使用道具 举报

发表于 2021-6-3 13:17:00
可惜数据没了

使用道具 举报

发表于 2021-6-6 18:44:14
你好,能提供一下翻墙工具吗

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册  

本版积分规则

联系社区管理员|联系帆软|《帆软社区协议》|手机版|帆软社区|Copyright © 帆软软件有限公司 ( 苏ICP备18065767号-7 )

GMT+8, 2021-6-22 16:03 , Processed in 0.395628 second(s), 68 queries , Gzip On.

返回顶部 返回列表