【2022BI数据分析大赛】直播电商用户流失行为分析

好久不见呀

1 团队成员介绍

1.1团队名称：熬夜冠军

1.2成员介绍：

躺躺：队长，伪互联网产品运营狗，被无效沟通耗空精力，想尝试感兴趣的新领域。本次项目负责：撰写分析框架，相关性分析与RFM模型搭建，图表可视化呈现以及对应结论和建议的撰写。

小胡：励志从工科专业转行至数分领域的一枚学生党，被好玩的数据分析所诱惑。爱美食，爱摄影，爱旅行，爱运动，爱记录，当然还爱唠嗑。本次项目负责：确定主题，寻找数据集，图表可视化呈现以及对应结论和建议的撰写，整理分析报告，搭建与美化仪表盘。

小李：从传统行业转行数分领域的学生党+1。爱好追番、运动、做菜。本次项目负责：数据清洗和处理，随机森林模型搭建并量化特征字段重要性，图表可视化呈现以及对应结论和建议的撰写。

1.3参赛初衷：

本着学习的态度，通过FineBI平台扩展BI工具的应用，增加项目经历，丰富简历；
通过比赛，结交在数据分析的朋友，相互学习、一同进步。
希望赢得这次比赛名次，增加自己的职场竞争力。
希望接触到纯数据分析，学习新的工具，丰富作品集。

2 作品背景简介

参赛数据为直播电商用户流失与行为数据集，用于分析用户流失特征。

分析目的：分析数据可以看出用户的流失率、购买力度，寻找流失用户与留存用户之间的行为差异，以进一步作出决策降低流失率。

数据集来源链接：https://tianchi.aliyun.com/dataset/dataDetail?dataId=124814

3 分析思路介绍

3.1提出问题

流失用户和留存用户存在哪些差异，流失率与哪些指标相关性更大，该如何降低流失率？

3.2分析框架

观察数据集的所有字段，并进行指标梳理，可以分成三类：一是订单相关指标，二是用户的基础属性指标，三是用户的行为指标。指标体系如下：

搭建指标体系后，通过相关性分析和随机森林模型进行分析检验，筛选出重点特征字段进行可视化展示。

$C:\Users\31279\Desktop\fanruan\分析框架.png分析框架$

3.3数据清洗与处理

本数据来源于电商平台，共有19个字段，相关字段如下（其中作品是否使用主要根据模型建立后得出的结论）：

序号	原始字段	字段类型	字段说明	作品是否使用
1	CustomerID	数值型	客户ID	否
2	Churn	字符型	是否为流失（1为True，0为False）	是
3	Tenure	数值型	用户生命周期	是
4	PreferredLoginDevice	字符型	用户使用设备	否
5	CityTier	字符型	所在城市分类	是
6	WarehouseToHome	数值型	仓库到客户家的距离	是
7	AgeGroup	字符型	年龄分布	是
8	MaritalStatus	字符型	婚姻状况	否
9	Gender	字符型	性别	是
10	HourSpendOnApp	数值型	APP使用时长	否
11	PreferedOrderCat	字符型	上个月用户首选订单类别	是
12	SatisfactionScore	数值型	满意度评分	是
13	NumberOfStreamerFollowed	数值型	关注数	是
14	Complain	数值型	是否抱怨	是
15	OrderAmountHikeFromlastYear	数值型	较去年订单增长率	是
16	CouponUsed	数值型	优惠券使用次数	否
17	OrderCount	数值型	上个月订单数	是
18	DaySinceLastOrder	数值型	最近一次消费（天）	是
19	DiscountAmount	数值型	上个月平均现金返还	是

3.3.1 数据清洗

列重命名：将英文字段统一转换为中文字段描述。
空值填充：对数据集各字段进行检查，发现“用户生命周期”、“仓库到客户家距离”、“App使用时长”、“上个月订单数量”、“较去年订单增长率”、“最近一次消费”、“优惠券使用次数”这几个字段存在空值，于是我们将这几个字段分别进行分布直方图的绘制，发现其中“用户生命周期”、“仓库到客户家距离”、“上个月订单数量”、“最近一次消费”、“优惠券使用次数”这几个字段近似服从正态分布，我们就可以用它们的平均值进行填充；而“App使用时长”、“较去年订单增长率”可以看作是偏态分布，为了消除极端值的影响，我们使用中位数来填充。
删除异常值：我们使用统计学中，常用的均方差检测方法来定位和处理异常值。如果一个数据分布近似正态，那么大约68%的数据值会在均值的一个标准差范围内，大约95%会在两个标准差范围内，大约99.7%会在三个标准差范围内。经检查，未发现存在异常值的情况。
删除重复值：未发现重复值。

经以上步骤清理过后，一共有5630条样本数据。

3.3.2 数据处理

对分类变量进行one-hot编码：

对分类变量进行独热编码，可以解决分类器不好处理属性数据的问题，编码后的特征都可以看作是连续的特征，并且在一定程度上也起到了扩充特征的作用。

对连续性数值字段做分桶操作：

从模型的效果上看，特征分桶主要是为了降低变量的复杂性，减少变量噪音对模型的影响。

一般来说，需要把数据集随机分成训练集和测试集。训练集是为了训练模型，通过使用算法和调节参数建立分类器；测试集是为了测试训练好的模型，检验模型的泛化能力。此外，验证集是为了通过交叉验证来调节模型的超参数（超参数是模型的外部参数设置，通常是根据实际问题来主观选择），不断迭代改善模型的性能。

4 模型搭建

4.1 相关性分析

除主键CustomerID外，首先将Churn字段与其它17个字段进行相关性分析（类别变量使用Spearman’s rho，连续变量使用Pearson’s r），发现用户流失与否与Tenure、WarehouseToHome、DaySinceLastOrder、NumberOfStreamerFollowed、SatisfactionScore、DiscountAmount、PreferredLoginDevice、MaritalStatus、AgeGroup、PreferedOrderCat、Complain、CityTier(p<0.001)、OrderCount、Gender(p<0.05)存在显著相关，因此主要从这些字段进行讨论，分析流失用户属性。

cor_plot_01

4.2 随机森林模型

我们期望使用随机森林模型来对用户流失做预测，由于决策树模型有着良好的可解释性，故我们可以对影响用户流失的各重要特征字段进行量化分析，以此来决定下面可视化呈现的内容。根据实验结果得知，各特征字段对用户流失的重要性占比如下图：

随机森林模型如下图：

4.3 小结

根据相关性分析和随机森林模型，可得两者特征字段吻合性较好。我们挑选重要性排名较高的字段：Tenure、WarehouseToHome、DaySinceLastOrder、NumberOfStreamerFollowed、SatisfactionScore、DiscountAmount、PreferredLoginDevice、MaritalStatus、AgeGroup、PreferedOrderCat、CityTier、OrderCount、Gender进行下面的可视化看板的搭建，其中RFM模型需要DaySinceLastOrder字段，也被采纳在内。

4.4 RFM模型

RFM模型常用来进行用户分析，三个字母代表不同指标：R表示间隔（Recency）：即客户最近一次交易距今的间隔，R越大，表示客户越久未发生交易，反之R越小，表示客户越近有交易发生；F表示频次（Frequency）：即客户在最近一段时间内交易的次数，一般来说在特定时间段，F越大，表示客户交易越频繁，反之F越小，表示客户不够活跃；M表示额度（Monetary）：即同样的时间段内的交易金额，客户交易的金额，M越大，表示客户价值越高，M越小，表示客户价值越低。但是本数据集中没有消费金额，只有返现金额的字段，我们认为消费金额越高返现才会越多，所以将返现金额作为M对用户进行划分。

根据现有数据集数据对每个用户进行RFM计算赋值。以平均值作为基点，R小于平均值记为2，反正记为1；F和M小于平均值记为1，反之记为2。因此用户可以分为8类：

根据现有用户的行为特征进行RFM分类，比较留存用户与流失用户的构成比例。通常研究中会根据RFM模型对用户价值进行合理预估，基于“理想客户”特征去定位最有价值的用户，制定维护策略。但另一个角度来说，可以对更易流失的用户类型进行拆解分析预防流失，从而进一步转化为“理想客户”。

	R （DaySinceLastOrder）	F （OrderCount）	M （DiscountAmount）	人数占比
高价值用户	2	2	2	5.08%
一般价值客户	2	2	1	5.35%
重点发展客户	2	1	2	13.14%
一般发展客户	2	1	1	39.04%
重点保持客户	1	2	2	9.08%
一般保持客户	1	2	1	8.85%
重点挽留客户	1	1	2	9.40%
潜在客户	1	1	1	9.80%

5 数据分析过程

5.1 整体分析

以数据集的形式展现，左侧为各用户人群的分布，右侧增加了筛选器（性别和城市等级），能够更直观地下钻至这两个维度，研究用户流失情况和产品需求。

5.2 各区域分析

该APP的用户群体主要是70后和80后，且流失率随着用户群体年龄区间增大而增大。

随着用户使用时间的增长，留存率在不断提高。当用户使用时长大于30小时后，留存率为100%。

订单数目主要分布为手机和电脑这类高客单、低复购的产品，占所有商品的50%以上。

一、三线城市物流距离与流失率没有显著相关，但二线城市流失用户的物流距离明显高于留存用户，说明发货地与收货地之间的距离会影响二线城市的用户流失。

流失用户中单身人士最多，留存用户中已婚人士最多，相较而言单身用户更易流失。

主播关注数在19~22人数的区间中，由于人数基数小，所以没有参考价值。没有任一用户，主播关注数位于13~18的区间段内。总体而言，随着主播关注数的增加，用户流失率反而提高。

通过FineBI的联动功能，可以采用RFM模型对每个用户群体可以定性分析，来进一步精细化运营。对于48位流失的高价值客户，该用户群体购买订单以时尚品为主，并且主要居住在三线城市，可以针对性投放关于时尚前沿的直播、采取VIP专享快递等服务增强其体验感。

从抱怨情况这个维度来看，对平台有抱怨的用户普遍流失率高于未抱怨的用户。从满意度这个维度来看，不同满意度对应的流失率并没有像常识上的流失率随着满意度的上升而下降。

现金奖励最少的区间段内流失率最高；随后现金奖励的增加，流失率逐步下降。其中有两个拐点值得注意，分别是150-200和250-300区间段内。

5.3 总体呈现

六、总结与建议

该APP的用户群体主要是70后和80后，可以重点针对该群体做直播内容优化、兴趣引导，如少用潮流性话术、多使用大众性话术等。而针对流失率随着用户群体年龄区间增大而增大的现象，可能是由于该类群体不熟悉APP界面、操作有困难，可以添加如用户界面引导、增大字体和颜色对比度等适老化改造。
用户使用时间越长说明活跃度越高、直播间的黏性越大。对于直播间而言，可以多讲趣味性故事、互动抽奖等方式来提高直播间与用户之间的黏性。
订单数目主要分布为手机和电脑这类高客单、低复购的产品，可以拓展品牌，以加购手机膜、手机壳等附属设备给予一定优惠等方式来提高复购率。
继续下钻不同城市的物流方式、派送方式等，检验不同城市之间是否存在差异。优化二线城市的推送与搜索策略，优先展示近距离商品。
随着主播关注数的增加，用户流失率反而提高。平台需要加大对主播的监管力度，采用算法机制优先推送高质量的主播。
针对满意度上升流失率反而提高这一现象，需要考虑是否存在买号刷分的情况，通常这些账号在打完分数后就会很快地流失掉。另外可以考虑建立抱怨预警机制，研究可以预测抱怨的用户行为，在抱怨未发生时及时监测及时预警。在满足用户需求的基础上多投入些人力和财力，比如可以对用户进行回访，以问卷调研等形式全方面多维度的调查用户各种各样的需求和直播间体验情况。
用户的消费心理通常是现金奖励返还越高，冲动型消费和持续型消费则越强。在保证客单利润率的前提下，可以考虑在直播时采用150-200和250-300的现金奖励返还机制，刺激用户进行消费，以提高用户留存率和成交率。

七、心得体会

1、业务角度：

在实际业务中，要完全明确数据口径与联结关系，才能更好理解指标含义，加以分析。此外在数据指标体系建立前一定要考虑周到，以免出现后期没法取数的尴尬情况。

就本数据集而言，由于数据本身缺少时间维度，并不能通过环同比将现在和过往进行对比，做到用户流失相关指标的监控，从而起到预警的效果；而且受限于数据集现有指标内容，无法进行进一步下钻，锁定根本原因。

2、使用Fine BI：

产品总体而言脉络清晰，能够很快上手，但是有些功能隐藏较深，不易发现。增加计算字段不能适用在多个仪表盘，需要复制或者重新创建。图表样式希望可以更丰富些，在使用时发现没有堆积柱状图和折线图的组合形式，以及多层饼状图时出现了锯齿状。

淡竹 · 发表于 2022-4-28 17:52:01

心有灵犀的选题我刚刚写好就看到你这篇了

feifei0924 · 发表于 2022-5-2 22:48:15

好像有三四篇同样的数据，是我的错觉吗？

lbstjw · 发表于 2022-5-9 15:53:13

案例打卡：熬夜冠军，恭喜了，熬夜亚军为你加油，哈哈
整体感觉不错，底色黑色，其他色彩有点多，可以少一点点，还有城市等级和用户状态考虑去掉图例，分析结果很明确，很好的建议。

流年的你我 · 发表于 2022-5-12 20:20:43

案例打卡:颜色搭配上可以再优化一下，图片可以更加清晰一些。

RainZ · 发表于 2022-5-17 12:08:27

案例打卡：很好的数据集和选题~很巧的是，我们团队也近乎由产品，工科生和统计生组成的，在这点上也许有一定相似程度。

个人建议：流程思路其实是对的，通过机器学习可以寻找到核心差异，并完成高留存的迁移。虽然运用了RFM，但是在本图上也许并没有体现出来用户分群之后的操作，就很难进行验证，也许可以继续深挖。仍有提升空间，继续加油~

数智化 · 发表于 2022-5-27 13:46:18

模型很丰富,选题也比较具体,这类报告,就需要结合实际的建议策略了,需要强化一下这方面的内容.

奇奇chi · 发表于 2022-5-29 22:13:40

案例打卡：在现有数据的基础上给出了不错的分析过程，也发现了环形图的小bug哈哈哈，观察的非常细致。感觉堆叠柱状图上在进行大小区分有点奇怪。

12回帖数	3关注人数	15171浏览人数
最后回复于：2022-5-29 22:13

提问