一、选手介绍
1. 团队名称:流星
队长介绍:流星1号,集脑力技术操作于一身的作坊坊主。白天预备程序员,晚上峡谷召唤师,业务水平持续在线不挂机,数据分析当之无愧MVP.
成员介绍:流星2号,摆烂坊花,美丽废物,不定期营业的打杂人员。
2.参赛初衷
可视化分析是数据分析工作中必不可少的一个部分。作为未来想从事这个行业的同学,想通过这个实战机会锻炼一下自己各方面的能力,了解到自己的不足,从而更好地为以后的工作做准备。
比赛奖励很丰富,吸引人~
二、 作品介绍
1. 业务背景
随着电商平台的成熟,如何提升用户体验、提高客户留存率也成为了电商平台关注的重点。某电商平台公司给出了他们16年10月至18年8月的部分订单数据,希望能够得到一些改进建议,提升业绩。
2. 数据来源
自选数据:https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce
包含十万多条该电商平台的真实订单数据,已做过脱敏处理。可以从卖家买家地理位置、物流信息、订单价格、商品属性、客户评价等多个维度进行分析。
3. 分析思路
首先,将对平台的整体销售情况进行一个分析,从用户和商品两个维度,了解平台的总体运营情况。
- 用户维度上,会通过RFM模型了解到用户的消费属性,精准营销提高复购率。同时,也会对用户的增长趋势和分布情况进行分析。
- 商品维度上,会对各品类销售状况和增长趋势进行分析,了解平台各品类的销售状况和价格定位。
其次,用户评价是最直观地能反应用户体验的指标。接下来将通过差评分析,找到平台目前存在的可能导致用户打出差评的因素,来对平台提出改进建议。分析将从物流状况、用户评价、商品属性这三个维度展开其中。
下面是分析框架
4. 数据处理
数据处理分为两部分:
- 一部分是清洗基础表,合成宽表和基础信息表,处理之后将处理好的数据表导入到帆软里。这部分是用Python完成的。
- 第二部分是制作RFM模型表。这部分是在帆软里完成的。后续制作看板时可能会用到一些辅助表,它们的制作也是在帆软里。
自选数据集一共有9张数据表,数据模式如下:
整理过程:
1) 数据清洗
对每张表进行数据清洗,删除异常值,例如:去重,删除付款金额分期次数小于0的记录,删除物流时间异常的记录(物流时间异常包括物流发出时间早于订单成立时间,发货时间早于到货时间,到货时间早于订单成立时间的)
特别地,对于olist_order_items表新增三列统计整个订单的商品总价,运费总价和之前两者的总价格(freight_value + price)。
2) 数据合并
将清洗好的数据根据上面数据模式里各表的关联关系用inner join合并,并整理成一张大宽表。
3) 对合并后的的宽表再次进行数据清洗和整合
- 删除已经确定的,后续不会用到的字段(product_length_cm, product_height_cm, product_width_cm, product_name_lenght) 并再次进行去重处理。
- 查看数据缺失情况。除去用户评价的标题、评价内容数据和产品重量的数据,其他的缺失数据都是和物流相关的。由于物流相关的缺失数据所占比重较少并且难以预估(缺失最多的物流送达时间占总数据的2.08%),所以对于有缺失数据的记录我直接进行了删除处理。
3. 新增列记录购买时间(根据order_purchase_timestamp添加年year、month、day字段)
4. 由于2016年只有3个月的数据且数据量较少,所以接下来的分析不考虑2016年的数据。根据新增的year字段筛选出2017和2018年的数据。
5. 新增列记录各个物流环节处理时间(以天为单位),包括订单成立到卖家发货之间的卖家处理时间,订单发出到订单送达的运输时间以及从订单成立到订单送达的总时间。
6. 新增列记录订单送达是否准时(比较预期送达时间和实际送达时间)
4) 制作RFM基础信息表
- 从宽表中提取出需要的字段,"customer_unique_id", "order_id", "order_approved_at", "total_product_price", "total_freight", "total_price",并对得到的新表进行去重处理
- 通过groupby函数找到每个用户的最新下单时间,购买次数和购买总金额,并把它们合并到一张表里。
将最终生成的数据导出为csv格式并导入到帆软进行后续分析。
5) 制作RFM模型表
- 通过RFM基础信息表里已知的最近消费时间、消费次数和消费金额,计算出最近一次消费距今的平均消费天数、平均消费次数和平均消费金额,以此为基准计算出R,F,M的值。
- 新建一列RFM聚合R,F,M的值。
- 根据以下规则,通过分组赋值方法,将用户按照RFM的值分类。
5. 可视化报告
5.1 整体分析
平台整体运行呈上升趋势。
1)2017-2018年8月期间,平台用户数量达到89,593人,订单数92,520笔,共消费1480.27万元。
2)客单价和笔单价分别为165.22元和160.00元。
3)对比2017年,2018年的用户数量、订单数量和销售额稳定增长。其中,订单环比增长率为23.04%,销售额环比增长率为23.69%,用户环比增长率为22.09%
4)通过月销量折线图可以发现,在2017年的11月销售额和订单量增长显著。通过进一步抽取该月数据发现,11月24日和11月25日订单数量增长迅速,分别为759笔(11.56万元)和716笔(10.58万元)。经过调查发现11月24日为“黑色星期五”,当天商家会进行打折促销,由此可以看出当日活动效果很好。
5.2 商品维度分析
平台在线销售的商品可分为71个品类,共计31,017个产品。在2017-2018年8月期间,共销售105,543件产品。
1)通过商品品类帕累托分析,可以发现销售额前20%的品类占据了总销售额的75.3%,符合二八定律。其中,销售额前三的商品为health_beauty, wathces_gifts和bed_bath_table。平台应重点维护好销售额位居前列的品类的商户、同时,也不能忽略销售额排名靠后的品类,因为他们也贡献了一定的收益。平台后期可以考虑增加商品品类来提高收益。
2)通过散点图可以发现,品类商品数量和销售额呈正相关。一个品类的商品数量越多,它的销售额也会越高。
3)平台的商品价格主要分布在0~200元之间,贡献了平台超过50%的销售额,结合之前的笔单价和用户平均订单数,我们可以得出平台主要面对的是低端市场,且客户活跃度较低。
4)商品价格大于500元的商品贡献的销售额仅次于0~200元的价格区间,达到312.42万,需要关注。
5.3 用户维度分析
从图中可以看出,平台的主要用户为一般发展客户、一般挽留客户、重要发展客户和重要挽留客户。其余四类用户合计占比不到3%,销售额也较低,仅为5.5%。其中:
1)一般发展用户(新用户)占比最大,高达37.75%,但是消费占比仅为19.20%。
2)一般挽留用户(流失客户)占比高达总体用户的32.29%,平台需要注意用户维持。
3)重要发展用户和重要挽留用户占全体用户的27.03%。贡献了平台58.89%的销售额。这两类客户平台应该重点关注。平台可以制定合理策略刺激用户消费,提高用户活跃度。
4)重要价值客户仅比小,只有1.23%,急需提升。
5) 绝大部分的(97.06%)用户在平台仅消费了一次,人均下单数为1.03笔。
6)各州消费金额和会员数分布基本吻合。巴西沿海地区经济较为发达,而平台会员也集中分布在这里。圣保罗州、里约热内卢州和米纳斯吉拉斯州会员数和消费额为TOP3。
7)用户评用户评价是最直观地能反应用户体验的指标。在所有订单中,将3分及以下的所有数据记作差评,平台的差评率高达21%,需要引起重视。
5.4 用户评价探索性分析
接下来将针对平台差评(1-3分评价)进行探索性分析,找到平台目前存在的可能导致用户打出差评的因素,来对平台提出改进建议。分析将从物流状况、用户评价、商品属性这三个维度展开其中。
5.4.1 用户评价分析
1)用户评价中出现最多次数的单词都是和商品、物流相关的,说明用户对商品本身和物流运输较为关注。
2)用户评价时间主要分布在白天时段,两个高峰期分别为中午11时~13时和晚上23时~1时。其中,评价最多的时间段位中午11时~12时,为6590单。差评最多的时间段为中午11时~12时,为1445单。
3)用户平均评价时长为3.17天,73.07%的用户在3天内就会做出评价。
5.4.2 物流分析
1)平台的物流配送时间较长,平均配送时长达到了12.16天,其中卖家平均发货时间长达2.81天,物流平均配送时间更是高达9.34天。
2)超时订单占比8.10%,平均物流总时长和平均运费价格都高于平均值。在这些超时订单中,65%的用户都给了差评。
3)用户评分和订单物流平均总时长呈正相关。用户评分越高,物流总时间越短,说明配送时长确实会影响用户打分。
4)用户评分和运费价格呈正相关。用户评分越高,平均运费价格越低。每笔订单平均运费高达22.88元,总运费更是高达总消费的14.30%。
5.4.2 商品分析
1) 大部分商品的描述字符数在0~800之间,照片数量在0~4张之间,不存在图片或者描述不完善的订单。
2)就本次分析得到的数据而言,商品的照片数量和描述字符数对于评分是有影响的。高评分(4~5)的订单里的商品的照片数和字符数都是多于低评分的订单里的商品的,所以建议商家补充产品信息,帮助用户了解商品,提高销售额。
2)通过统计各评分商品的件数我们可以发现,有超过1万件商品得到了差评,说明平台的商品质量还是需要提升的。
5.5 分析总结
1. 平台总体运营呈上升趋势。商品价格主要分布在0~200元之间,主打平价市场,且品类商品的数量和销售额呈正相关,所以可以制定一些策略吸引更多的销售平价商品的商家入驻来拉新。同时,在有能力的情况下,可以引进一些高价产品,吸引高端用户增加收益。
2. 平台需要加强用户管理,针对不同的重要用户群体进行精准化的市场营销,重点培养重要价值客户,例如满减,促销,包邮等活动提升用户活跃度和复购率。
3. 平台的用户大多分布于巴西沿海地区,内陆地区用户较少,可以针对内陆和沿海地区进行不同的营销策略,提升市场占有率,刺激消费。
4. 平台应加强平时对于用户评价的追踪管理和反馈,从中探查平台存在的问题,及时改进,增强用户体验。
5. 配送时长和运费价格对用户评分有很大影响。平台需要加强物流管理,减少配送时间和运输成本,提升用户体验。
6. 平台应加强对商家的管理,督促商家完善商品描述,提升对于产品品质和监管,从而增加用户对于平台的信赖和忠诚度。
最终结果呈现的页面布局:
公共链接分享仪表板:https://bisolutions.fanruan.com/webroot/decision/link/700X
三、参赛总结
这是我们第一次参加数据分析比赛,也是第一次使用帆软。在此之前,我们都没有使用过可视化工具,不太熟悉页面布局和操作方法,所以在一开始进展比较缓慢,后面熟悉了就好多了。
软件还是很好上手的,帮助文档里关于各个图表的使用方法说得很详细,跟着说明方法一步一步做下来还是很顺利的。在这里可能想提一个小建议,就是在用户刚进入制作面板的时候,可以增加一个新手导览简单介绍一下使用流程,或者对于一些细节进行提示,比如全局数据是默认关闭的,需要自己勾选才会显示所有数据。
这次比赛是一个挑战和进步的过程。在这个过程中,从确定分析主题到形成可视化报告,都一步一步由自己实践完成了。回看经历过的这几个星期真的收获满满~ |