【2023BI数据分析大赛】超市运营数据分析及预测

楼主
我是社区第2228923位番薯,欢迎点我头像关注我哦~

超市经营数据分析与预测 

一、选手简介

1、选手介绍

(1)团队选手版

  • 团队名称:Data Viz
  • 队长介绍:帆软社区用户名AlbertWang,目前在Northeastern University读数据科学研究生,同时在从事数据分析工作,个人感兴趣的方向和领域有数据分析、数据可视化、机器学习。
  • 成员介绍:
  • Jerry: 目前在 Northeastern University读数据科学研究生。
  • Miya: 目前在 Northeastern University读数据分析研究生
  • 团队组成:都是学校同学。

2、参赛初衷

  • 希望通过此次比赛学习数据分析的思路,提高数据分析能力,优化分析思路,熟悉FineBI的操作方式,来提升工作效率。为公司的分析业务增添价值,希望将FineBI推广到公司使用。

 

二、作品介绍

1、业务背景/需求痛点

简述业务背景:

你是否有过这样的体验:在超市的冷藏柜前,拿起一瓶牛奶,但是发现它保质期已经过了一大半,挑来挑去很难挑选到新鲜的牛奶?

运用到FineBI以及机器学习模型,便可以帮助超市更科学地备货,令消费者更容易购买到新鲜的食物。

超市利用可视化报表分析经营情况,利用机器学习算法来预测销量,调整备货策略,减少过度备货导致的食品浪费问题的同时,提高客户满意度,在长期的商业竞争中取得优势。沃尔玛拥有大量在职的数据分析师和数据科学家,并且还在积极招聘,机器学习对于超市和数据分析师来说都是如虎添翼,但机器学习运行的结果只是一堆数字和准确度的分数,如何获得商业洞见,仍然需要FineBI去体现。本作品以厄瓜多尔连锁超市为例,对经营数据和预测结果,在FineBI直观呈现,为企业创造价值。

简述需求痛点:

对于连锁超市,如果商品准备过多,会导致大量商品过期浪费,如果准备商品过少,便不够卖,不能最大化盈利。如何在不同的门店准备好适量的商品,是超市需要考虑的问题。连锁超市因为商品数量准备得不恰当,每年损失大量的钱。

 

2、数据来源

  • 自选数据:

image9.png

 

在选定参赛主题之前,对于过往三届作品的270个参赛作品做了数据分析,根据样本量和获奖率,发现地产、交通运输、健康、消费、制造这5个类别的参赛作品,在样本量较大(至少有过19个)的前提下,获奖率较高,适合分析。选取的备选数据集有航空公司运营数据、链家数据、kaggle厄瓜多尔连锁超市数据。考虑到数据质量,选定kaggle数据集使用,这份分析对于国内的商超具备可迁移的分析价值。

 

3、分析思路

  • 拿到数据后我的分析思考过程:

image1.png

数据包含五张csv文件,表间关系可以通过id, city等关键字链接。在数据内进行表间关联:

image2.png

 

根据需要的分析的角度,又生成了submission, 各类产品历史销量,预测结果三张表,利用公式生成了一些新的列备用。

 

因果性分析:

事物存在因果性的三个条件:

  1. 原因发生在结果之前
  2. 原因与结果存在逻辑关系
  3. 无其他导致这一结果的原因

有些事物存在相关性,但无因果性。如果能挖掘出因果性,便可以通过改变原因,来改善结果。在企业中的应用是通过调整经营策略来获得更大收益。

通过这份数据,可以分析出石油价格、节假日对于超市销售额的影响规律。从而预测超市下一阶段各类商品的销售额。避免备货过多导致的浪费以及备货过少导致的收益不足。

  • 围绕分析主题,拆解了哪些分析方向?为什么这么拆解?

 

拆解了时间维度(不同季度、周内各日)、空间维度(不同门店)、种类维度(商品种类)、因果性(石油价格➡️厄瓜多尔经济➡️消费者购买力➡️超市销售额)

4、数据处理

  • 可视化分析之前你进行了哪些数据处理

为了分析以季度为颗粒度的销售总额的走势,在不加过滤的情况下产生的图表如下:

image5.png

 

上图存在三个问题:1.数据集包含了一部分没有带时间的噪音数据,被系统认定为2013年第一季度之前的数据,数据值只有一百多万,极大地干扰了需要研究的数据(2013年第一季度到2017年第二季度)的情况。2. 由于没有剔除,x轴上坐标点过多,需要拖动才能看到全部数据。3. 数据集包含了一部分2017年第三季度的数据,但是不够完整,所以数值较低。

既然研究对象是以季度为时间颗粒度的走势,需要斩头去尾将这两个噪音数据点剔除。FineBI的数据筛选功能也很方便,按下图两步流程,对数据进行过滤即可。image7.png

image11.png

 

剔除后的图解决了以上三个问题,数据区间从(124,7849)变成了(3124,7849)减少了噪音干扰,并且调整了颜色,各季度之间的走势变化情况更明显,更清晰地反映出真实情况:image3.png

 

2. 预测结果的处理:

image14.png

 

预测出的33个品类的销售额总量大约是历史销售额的1/87,历史数据是2013年1月1日到2017年第三季度的数据,根据比例关系,可以推测预测时间范围大约为20天。计算各类产品变化率时,先将预测结果乘以87,再和历史数据做差后计算变化率,当作该类商品接下来20天的需求变化率,作为新增列加到表内。

5、可视化报告

从时间维度来看,厄瓜多尔54个连锁超市的总销量在稳步增长。以季度为颗粒度来看,每年的第四季度均为当年销售额最高的季度,主要原因是圣诞节在第四季度,类似于国内的春节期间,消费者会大量消费。

image6.png

再从空间分布和品类分布,直观地看出各城市和各品类占了多大比例。 两个城市占了总销售额的大约70%,如果想对剩下的各个城市销量进行比较,剔除掉这两个城市后的直方图看得更清晰。

image12.png

 

image4.png

 

 

接下来,探索销售额的规律,发现一周的7个日期之内,销售量和销售额有着较大差异。消费者在周日更倾向于购买单价贵的物品。并且发现在不同的石油价格日期区间内,销售额有很大差异。

在分析的过程中,根据新发现的结论,可以进一步顺着这个思路,再往前拓展。分析过程中,首先发现了销售额较高的商品有面包、乳制品等;再通过分析一周内各天的销售额,发现了周末的销售额较高。那么将这两张图表的结论结合,又可以分析面包、乳制品在一周内不同时间段的销售状况,从而科学地制定配货策略,提高收益、减少浪费。通过各个分析维度的突出特征,结合起来便可抓住提高盈利的关节问题。对于超市,建议是根据每周需求先定好总供应量,再按照工作日每天:周末每天 = 1:1.5的比例来供应面包和乳制品最合适。

通过精准配货,商家可以获得更大收益,消费者也可以购买到更新鲜的食品。

根据这些数据特征制定了如下经营策略:

image13.png

image15.png

机器学习算法的实现:

运用到LightGBM机器学习模型,预测出的结果在kaggle平台上获得了0.37984的分数。

通过将模型的预测数据结果进行处理,生成直观的图表后,得出了两条分析结论与经营建议。

image17.png

 

通过饼图的比例变化,可以看出33个品类中销售额占比较高且在接下来一段时间内需求量大幅上涨的商品有生产用具和饮料。image18.png

 

通过对比柱状图,结合历史销售总额和预期下一阶段的需求变化率,制定经营策略。下图中33个商品品类的需求变化率中,存在一个过于离群的异常值。

image10.png

image8.png

 

将异常值剔除后,各品类需求变化率在-81%到+105%之间,并且超过一半的品类需求变化率不超过±20%,切合实际。

image16.png

 

  • 如何排版布局,设置颜色

排版按照总分结构,先从时间维度和空间维度对数据进行初步分析,再从细分维度进行分析。

帆软的色差对比非常直观,在深色主题背景下,红绿色差最显眼。但是考虑到人群中约有3%是色盲,使用红绿作为色差配色并不能满足所有受众的需求。最终我们选择了适合橙色和蓝色作为主色调。

 

(2)通过分析得出的结论,如

  • 提升效率:

利用机器进行计算,节省了分析师大量的时间。连锁商超利用机器学习算法和某些数据便可以对未来经营状况进行预测。不一定需要使用经济数据,出生人口数据、进出口数据、公司的内源性数据都可以用来分析规律并进行预测。

  • 影响决策:

通过数据分析和预测,超市可以减少备货过多的浪费,也可以避免供不应求的情况。令消费者购买到的食品更新鲜,提升顾客满意度,增加复购率。 超市下一阶段可以提高饮料的备货量,减少冷冻食品的备货量。通过FineBI和机器学习算法,会令消费者购买到临期商品的情况减少,商家也会在激烈的市场竞争中,靠着这些一点点积累起来的优势,滚起雪球,在长期的竞争中占得优势。

(3)最终结果呈现的页面布局

Image

 

三、参赛总结

1、FineBI工具

  • 简述你对BI工具的看法,如:

十分易用,很快便能上手。画面精美,仪表盘视觉效果好。

  • 点赞几个你觉得比较好用的BI亮点功能,并说明原因

数据处理很方便,公式易用,比在python写代码用pandas来进行数据处理要便捷很多。

右方的处理流程也很好用,如果哪一步处理错了,可以将改流程删除,返回到之前的版本重新处理。

  • 吐槽BI几个不好用的功能或不能实现的场景

如果渐变色能有适合深色主题背景,色差对比度高,但是不以红绿为色差两端就更好了。

或者能一键生成内容配色就更好了。

有时候仪表盘中图表会变成过往的版本,比如图表经过筛选、颜色调整后,在仪表板中一开始能显示出修改后的图,但是过一段时间又变成过往版本。需要将仪表盘中的图删除后重新添加。如果仪表盘的图和组件中的图能实时对应,操作就会更便利。

  • 对数据分析的价值的思考:

人对于视觉的直观感受更强,面对海量的数据,FineBI将需要耗费大量时间理解的数据转化为容易理解的可视化图表,便于受众理解。使得公司可以用更短的时间对于数据背后的隐含规律得到更深入的理解,通过因果规律来调整经营策略,在竞争激烈的市场中如虎添翼。

2、参赛总结

  • 总结谈谈在这个过程中的克服的困难、遇到的人、感恩的事儿、认知新感悟等等:

由于没有使用过FineBI,在看到优秀作品库里一份份精美的分析报告时,产生了很大的压力。看到拥有多年FineBI工作使用经验的选手制作的精美作品,怀疑自己能否从0开始完成作品。但当开始处理数据时,发现非常容易上手,很快就做好了多张图。说明FineBI非常“用户友好”,即使是没有使用经验的人,也可以快速上手。

  • 克服的困难:

首先我将几节公开课都看过了,再开始操作。遇到卡住的地方,再回到视频公开课里,看老师如何操作,再回到作品中通过添加表间关联,实现跨表可视化。

  • 感恩的事儿:

比赛的过程中,想起老板跟我说过“做数据分析不是搬砖,按时长衡量成果。而是要先把逻辑捋顺,否则就会在错误的方向搅浆糊,抓不准问题。通过帆软各位老师的公开课,我对于数据分析的逻辑有了更深入的理解,避免了一些误区。

  • 遇到的人儿:

感谢我的队友Jerry和Miya提供了很多分析的思路。

分享扩散:

沙发
发表于 2023-8-16 22:26:37

恭喜通过大赛初审!!

1、内容缺失,建议附上“最终结果呈现的页面布局”

2、图片模糊,建议优化排版,可点击文末“编辑”按钮重新上传图片,或者选择“导入Word”按钮,重新导入全文

3、如果使用本地BI制作,请确保提交的附件resources.zip内容完整(附件如有更新请微信发送苏茜);组委会将在8月16日后统一进行作品资源迁移,将您的作品导入大赛公共平台,形成在线模板查看链接,方便评委查看。

评审优先看此社区文章,请选手确保内容完整、排版清晰。截止8月17日20:00仍可调整排版问题,作品其他内容不可再修改。

板凳
发表于 2023-9-15 11:28:45
打卡:整体看板有些瑕疵的感觉,内容分析还是比较丰满,对后续的预测也有借鉴意义。
参与人数 +1 F币 +1 理由
兔子酱 + 1 打卡奖励

查看全部评分

地板
发表于 2023-9-27 16:50:08
打卡:作品基于多个数据源表的自选数据展开超市运营的分析,作品中对数据源的描述不是很清楚,看完后不太了解作品的数据基础主要包含哪些数据的字段信息,分析思路也没有在业务角度进行一个清晰的阐述,落地仪表板布局配色等还有优化空间呢。
参与人数 +1 F币 +6 理由
兔子酱 + 6 打卡奖励-最走心评论

查看全部评分

5楼
发表于 2023-10-1 10:28:16
打卡:报告从时间、空间、种类等维度对超市销售情况进行多角度分析,同时结合机器学习算法进行销量预测。报告中使用大量清晰的图表呈现结果,并给出针对性的经营策略建议。
参与人数 +1 F币 +1 理由
兔子酱 + 1 打卡奖励

查看全部评分

6楼
发表于 2023-10-2 12:04:31
打卡:
分析框架解读清晰,具有完整的数据分析过程体现,图表类型选取合理,能够恰当的表达相关的数据分析场景。
参与人数 +1 F币 +1 理由
兔子酱 + 1 打卡奖励

查看全部评分

7楼
发表于 2023-10-13 10:18:24
打卡:完整的数据分析过程,配色统一,故事化表达相关的数据分析场景,值得学习。
8楼
发表于 2023-10-20 15:53:03
打卡!很有深度的数据分析以及预测,关于预测能不能再透露一点,很想继续学习!
参与人数 +1 F币 +1 理由
兔子酱 + 1 打卡奖励

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表