【2022BI数据分析大赛】AX3C网上商城2019年销售情况分析
一、选手简介
1、团队选手版
团队名称:肆月
团队组成:
C:团长,帆软社区用户名yzn154057,信息管理与信息系统专业,会点Python、SQL查询语句,21年9月开始在FineBI加工部门的数据,但苦于本身技能和工作需求限制,基本处于东一锤子西一榔头的零敲碎打,希望以比赛为契机,系统地输出数据分析作品,发现不足,提升改进。
H:帆软社区用户名 wJ26t2187873 ,个人自学对数据分析和数据挖掘都很感兴趣,主要是关注电商方面,希望以比赛更好落地自己的技能,也想挑战自己,了解自己水平。
2、参赛初衷
希望通过比赛实践提升BI工具的使用方法和技巧
检验个人的数据分析能力
提升自己的数据敏感度及分析思维,培养数据洞察的能力
希望通过比赛实践提升自己的数据分析能力和可视化工具的使用展现能力,提升自己的数据敏感度及思维和培养数据洞察的能力
通过比赛实践了解自己数据分析能力的水平,发现思维和思路或分析方法使用等可能的欠缺的地方和漏洞
二、作品介绍
1、背景与难点
背景:
2018年10月,美丽国的一家3C产品经销商成立网店AX3C,运营至今已超过1整年。近期,网店负责人希望通过2019年一年本店的线上销售数据(目前只有部分字段)和同期市场调研数据,分析本店的基本情况,以及可能的营销思路,例如广告、选品建议。
难点:
数据维度较少
缺少业务背景,没有清晰的分析方向,但仍期望产生一些有价值的结论,
2、数据来源
自选数据(数据来自于Kaggle):
美国某3C电商2019年的销售数据,字段包括
Order ID
Product
Quantity Ordered
Price Each
Order Date
Purchase Address
美国2009-2019的部分零售电商宏观销售数据(数据来自于艾媒咨询和statistics)
3、分析思路
拿到数据后,首先想到的是描述性结论,例如销售额最好的产品是什么、哪个时间销量大等。虽直观,但多是经验出发,不成体系,不足以对经营情况产生更全面的认识,也不足以支撑营销决策。
围绕“认识店铺经营情况”的分析主题,按照自身情况&宏观情况的思路,经过仔细思考,团队讨论通过了如下分析结构:
“宏观”查看:结合行业调研数据,给本店一个初步定位
GMV
订单量/客户数
单均价
复购率
维度展开:
时间维度:季、月、周、日
基本认识:旺季?淡季?
运营思路:员工排班表?备货量安排?销售目标规划?
地理维度:州、城市
基本认识:商品/品类/品牌/价格偏好?大客户是?客户分群?
运营思路:消费情况为何呈现差异?是否需要分地区区别营销(如折扣/产品组合/首页推荐内容调整)?RFM?
商品维度:品类、品牌、商品
基本认识:销售额冠军产品?走量王?品牌/品类差异?
运营思路:品牌为主/杂牌店?大件/小件?季度主推商品?是否加盟某品牌?主做某品类?取消部分商品?购物篮?波士顿?
4、数据处理
分两类:数据清洗、字段加工,主要用到了Python、Finebi。
常规步骤
合并多张表的数据到一张表里
检查并处理空值、重复值、错误值
添加新列如State、City、Category、Brand等
特别指出
判断地址的值是否正常:一开始想到用正则,但只会解析城市名字是单个单词的地址,遇到New York City、San Francisco就不会了,唉,最后用字典匹配实现的
对订单日期的处理:由于基础数据是类似“04/22/19 15:09”的结构,读入Finebi直接文本,取其中的日期部分,自助数据集中改字段类型,值会消失,所以又返回表格加工...将文本类型的值可以转换成时间类型
购物篮数据:FineBI帮助文档中的购物篮分析介绍很清晰,是很有用的模型,最好专门为它构造一个数据集,但构造过程不复杂。
5、可视化报告
(1)仪表板组织结构
根据上面的分析思路,分四个部分进行展示,每个部分结论和建议放在前面,接着是结论对应的图表依次排布
各个分部由团队成员分别完成,其中,H主要负责:美国零售电子商务宏观环境分析、时间维度分析,C主要负责地理维度分析、商品维度分析,主要指标部分为共同完成。
过程中大家遇到问题会相互讨论,为保证各个队员的思路不受过多干扰,尽量不过分强调整体风格统一,由评审老师来给出意见即可,以尽量达到互相帮助,但又能检验个人数据分析、呈现能力的目的。
(2)具体组件及结论介绍
电商宏观环境部分
我们采用条形图,因为这部分主要体现宏观销售趋势和市场大小,目的在于对市场有基本把握,不做过多深入分析,条形图能够呈现这样的内容。但是,通过图表展示,我们仍发现零售电商呈增长趋势,因此基本判断人们在接纳电商这一新的销售方式,而非忽略或拒绝,我们可以迎合这一趋势,放手做线上销售。
主要指标部分
使用文本呈现,注意这里是2019全年指标,对于比较关心的销售额、订单量、单均价、客户数、品牌数、品类数、商品数进行呈现。
时间维度部分
除了常见的季度、月份、周数据,我们还考虑了一天之中各个小时的情况,从中发现了客户购物的高峰时间段:1/4/5/11/12月、1号、3~5号、8~11号和26号,以及11~12时和18~19时,给营销安排、广告投放提供更多决策支持。
地理维度部分
地图让我们直观看到客户的地域分布,此外,通过散点图+趋势线,我们看到各个州的客户单均价几乎相同,说明大家在电子产品偏好方面没有太大的地域差异。
此外,用一个Tab组件装进了各州、城市的销售情况,这样既快速提取了主要信息,还节省了版面,且避免多个条形图并列排放造成形式单调的情况,非常好用。
商品维度部分
商品维度主要采用了两种分析方法:波士顿矩阵和购物篮,比较常用。对于借鉴波士顿矩阵的两张图做了略微调整:将销量较高但单价低的配件类商品(电池、充电线)排除掉,这样剩余商品的点就不至于过度聚集,它们的销售特征才能更明显地展示出来。
购物篮分析也非常好用,不过由于这次的商品数量较少,未发现太多关联关系,只是进一步证明了“iPhone现在不送充电线,Google Phone也是”,这一事实。需要指出的是,由于支持度数据过小(例如0.0002,几乎接近于0),所以将支持度*1000作为新的支持度,以便于观察商品之间的关联关系。
(3)最终呈现的页面布局:https://bisolutions.fanruan.com/webroot/decision#directory
三、参赛总结
1、FineBI工具
对BI工具的看法:
Tab组件好用,方便对比,页面组织更有条理,还不用为了页面不单调而绞尽脑汁换图形格式
有些需求期待完善:例如取色器、格式刷、看板编辑页面组件可移动前后顺序、组件可以拉到其他仪表板里而不是重做、仪表板界面隐藏个别组件、明细表轮播等
对数据可视化过程的思考:
选哪些重要指标值来呈现:销售额、客单价、复购率等
使用模型的问题:例如波士顿的轴坐标如何选取、购物篮分析法的数据加工
2、参赛总结
3月30报名参赛,群里随缘组队,巧的是我们都选了零售电商的主题,一开始探讨方向有:社区电商、直播电商,期间一直在想思路、指标,后来找数据遇阻,兜兜转转找到了几个传统电商的数据,已经4月13日了...最后一跺脚,确定用其中一个关于3C电商的数据,虽然维度少,但也能用。
感受:
认识到分析思维的重要性,尤其是流程:确定问题再找数据分析,问题就是现实和理想的差距。
对于图表可视化技能和分析模型,要看优秀的可视化看板案例,要了解常用的模型及其使用场景和作用,在平时工作中有意识地使用。
对于时间进度把控,对选题,数据清洗和制作可视化需要完整的时间计划并且严格执行,同时留有时间余量和后续的美化时间。
数据预处理重要性。特别是数据处理后直接能用,其中对于时间格式处理更是如此。
感谢:
团队伙伴始终没说放弃,无论牺牲半天周末还是昨天做到凌晨2点。还有,大赛群的指导老师(大赛导师_dj、苏茜)有问必答且答到问题解决,靠谱。
感谢队长辛勤付出和带领,和队长积极讨论互相学习,了解到实际业务中开展可视化的展示考虑,更进一步了解实际业务,同时愿意沟通配合理解我的很多天马行空的想法和落于实处
感悟:
关于尝试:要多展示才能发现不足,才能提升改进,为此牺牲一点休息时间也是值得的。
关于坚持:4月20号之前都很有兴致,但是越往后,长期加班导致的疲倦、团队成员思路的差异、进度的缓慢、能力的怀疑,各种情绪唆使着我们:放弃吧,没啥结果......但是,这些麻烦也正是真实的经验:首先,真实感受到大家对数据分析兴趣很浓厚,但也确实各有不足,比如理论多于实践、比如思路匮乏、比如只顾着单点而忽略对完整过程的把控,并且没有补救能力等等。
凡所经历必有所得,已经在期待下一场比赛,在想该如何准备了哈哈哈哈