好久不见呀的帖子

【2022BI数据分析大赛】直播电商用户流失行为分析

1 团队成员介绍 1.1团队名称：熬夜冠军 1.2成员介绍：躺躺：队长，伪互联网产品运营狗，被无效沟通耗空精力，想尝试感兴趣的新领域。本次项目负责：撰写分析框架，相关性分析与RFM模型搭建，图表可视化呈现以及对应结论和建议的撰写。小胡：励志从工科专业转行至数分领域的一枚学生党，被好玩的数据分析所诱惑。爱美食，爱摄影，爱旅行，爱运动，爱记录，当然还爱唠嗑。本次项目负责：确定主题，寻找数据集，图表可视化呈现以及对应结论和建议的撰写，整理分析报告，搭建与美化仪表盘。小李：从传统行业转行数分领域的学生党+1。爱好追番、运动、做菜。本次项目负责：数据清洗和处理，随机森林模型搭建并量化特征字段重要性，图表可视化呈现以及对应结论和建议的撰写。 1.3参赛初衷：本着学习的态度，通过FineBI平台扩展BI工具的应用，增加项目经历，丰富简历；通过比赛，结交在数据分析的朋友，相互学习、一同进步。希望赢得这次比赛名次，增加自己的职场竞争力。希望接触到纯数据分析，学习新的工具，丰富作品集。 2 作品背景简介参赛数据为直播电商用户流失与行为数据集，用于分析用户流失特征。分析目的：分析数据可以看出用户的流失率、购买力度，寻找流失用户与留存用户之间的行为差异，以进一步作出决策降低流失率。数据集来源链接：https://tianchi.aliyun.com/dataset/dataDetail?dataId=124814 3 分析思路介绍 3.1提出问题流失用户和留存用户存在哪些差异，流失率与哪些指标相关性更大，该如何降低流失率？ 3.2分析框架观察数据集的所有字段，并进行指标梳理，可以分成三类：一是订单相关指标，二是用户的基础属性指标，三是用户的行为指标。指标体系如下：搭建指标体系后，通过相关性分析和随机森林模型进行分析检验，筛选出重点特征字段进行可视化展示。 3.3数据清洗与处理本数据来源于电商平台，共有19个字段，相关字段如下（其中作品是否使用主要根据模型建立后得出的结论）：序号原始字段字段类型字段说明作品是否使用 1 CustomerID 数值型客户ID 否 2 Churn 字符型是否为流失（1为True，0为False）是 3 Tenure 数值型用户生命周期是 4 PreferredLoginDevice 字符型用户使用设备否 5 CityTier 字符型所在城市分类是 6 WarehouseToHome 数值型仓库到客户家的距离是 7 AgeGroup 字符型年龄分布是 8 MaritalStatus 字符型婚姻状况否 9 Gender 字符型性别是 10 HourSpendOnApp 数值型 APP使用时长否 11 PreferedOrderCat 字符型上个月用户首选订单类别是 12 SatisfactionScore 数值型满意度评分是 13 NumberOfStreamerFollowed 数值型关注数是 14 Complain 数值型是否抱怨是 15 OrderAmountHikeFromlastYear 数值型较去年订单增长率是 16 CouponUsed 数值型优惠券使用次数否 17 OrderCount 数值型上个月订单数是 18 DaySinceLastOrder 数值型最近一次消费（天）是 19 DiscountAmount 数值型上个月平均现金返还是 3.3.1 数据清洗列重命名：将英文字段统一转换为中文字段描述。空值填充：对数据集各字段进行检查，发现“用户生命周期”、“仓库到客户家距离”、“App使用时长”、“上个月订单数量”、“较去年订单增长率”、“最近一次消费”、“优惠券使用次数”这几个字段存在空值，于是我们将这几个字段分别进行分布直方图的绘制，发现其中“用户生命周期”、“仓库到客户家距离”、“上个月订单数量”、“最近一次消费”、“优惠券使用次数”这几个字段近似服从正态分布，我们就可以用它们的平均值进行填充；而“App使用时长”、“较去年订单增长率”可以看作是偏态分布，为了消除极端值的影响，我们使用中位数来填充。删除异常值：我们使用统计学中，常用的均方差检测方法来定位和处理异常值。如果一个数据分布近似正态，那么大约68%的数据值会在均值的一个标准差范围内，大约95%会在两个标准差范围内，大约99.7%会在三个标准差范围内。经检查，未发现存在异常值的情况。删除重复值：未发现重复值。经以上步骤清理过后，一共有5630条样本数据。 3.3.2 数据处理对分类变量进行one-hot编码：对分类变量进行独热编码，可以解决分类器不好处理属性数据的问题，编码后的特征都可以看作是连续的特征，并且在一定程度上也起到了扩充特征的作用。对连续性数值字段做分桶操作：从模型的效果上看，特征分桶主要是为了降低变量的复杂性，减少变量噪音对模型的影响。一般来说，需要把数据集随机分成训练集和测试集。训练集是为了训练模型，通过使用算法和调节参数建立分类器；测试集是为了测试训练好的模型，检验模型的泛化能力。此外，验证集是为了通过交叉验证来调节模型的超参数（超参数是模型的外部参数设置，通常是根据实际问题来主观选择），不断迭代改善模型的性能。 4 模型搭建 4.1 相关性分析除主键CustomerID外，首先将Churn字段与其它17个字段进行相关性分析（类别变量使用Spearman’s rho，连续变量使用Pearson’s r），发现用户流失与否与Tenure、WarehouseToHome、DaySinceLastOrder、NumberOfStreamerFollowed、SatisfactionScore、DiscountAmount、PreferredLoginDevice、MaritalStatus、AgeGroup、PreferedOrderCat、Complain、CityTier(p<0.001)、OrderCount、Gender(p<0.05)存在显著相关，因此主要从这些字段进行讨论，分析流失用户属性。 4.2 随机森林模型我们期望使用随机森林模型来对用户流失做预测，由于决策树模型有着良好的可解释性，故我们可以对影响用户流失的各重要特征字段进行量化分析，以此来决定下面可视化呈现的内容。根据实验结果得知，各特征字段对用户流失的重要性占比如下图：随机森林模型如下图： 4.3 小结根据相关性分析和随机森林模型，可得两者特征字段吻合性较好。我们挑选重要性排名较高的字段：Tenure、WarehouseToHome、DaySinceLastOrder、NumberOfStreamerFollowed、SatisfactionScore、DiscountAmount、PreferredLoginDevice、MaritalStatus、AgeGroup、PreferedOrderCat、CityTier、OrderCount、Gender进行下面的可视化看板的搭建，其中RFM模型需要DaySinceLastOrder字段，也被采纳在内。 4.4 RFM模型 RFM模型常用来进行用户分析，三个字母代表不同指标：R表示间隔（Recency）：即客户最近一次交易距今的间隔，R越大，表示客户越久未发生交易，反之R越小，表示客户越近有交易发生；F表示频次（Frequency）：即客户在最近一段时间内交易的次数，一般来说在特定时间段，F越大，表示客户交易越频繁，反之F越小，表示客户不够活跃；M表示额度（Monetary）：即同样的时间段内的交易金额，客户交易的金额，M越大，表示客户价值越高，M越小，表示客户价值越低。但是本数据集中没有消费金额，只有返现金额的字段，我们认为消费金额越高返现才会越多，所以将返现金额作为M对用户进行划分。根据现有数据集数据对每个用户进行RFM计算赋值。以平均值作为基点，R小于平均值记为2，反正记为1；F和M小于平均值记为1，反之记为2。因此用户可以分为8类：根据现有用户的行为特征进行RFM分类，比较留存用户与流失用户的构成比例。通常研究中会根据RFM模型对用户价值进行合理预估，基于“理想客户”特征去定位最有价值的用户，制定维护策略。但另一个角度来说，可以对更易流失的用户类型进行拆解分析预防流失，从而进一步转化为“理想客户”。 R（DaySinceLastOrder） F（OrderCount） M（DiscountAmount）人数占比高价值用户 2 2 2 5.08% 一般价值客户 2 2 1 5.35% 重点发展客户 2 1 2 13.14% 一般发展客户 2 1 1 39.04% 重点保持客户 1 2 2 9.08% 一般保持客户 1 2 1 8.85% 重点挽留客户 1 1 2 9.40% 潜在客户 1 1 1 9.80% 5 数据分析过程 5.1 整体分析以数据集的形式展现，左侧为各用户人群的分布，右侧增加了筛选器（性别和城市等级），能够更直观地下钻至这两个维度，研究用户流失情况和产品需求。 5.2 各区域分析该APP的用户群体主要是70后和80后，且流失率随着用户群体年龄区间增大而增大。随着用户使用时间的增长，留存率在不断提高。当用户使用时长大于30小时后，留存率为100%。订单数目主要分布为手机和电脑这类高客单、低复购的产品，占所有商品的50%以上。一、三线城市物流距离与流失率没有显著相关，但二线城市流失用户的物流距离明显高于留存用户，说明发货地与收货地之间的距离会影响二线城市的用户流失。流失用户中单身人士最多，留存用户中已婚人士最多，相较而言单身用户更易流失。主播关注数在19~22人数的区间中，由于人数基数小，所以没有参考价值。没有任一用户，主播关注数位于13~18的区间段内。总体而言，随着主播关注数的增加，用户流失率反而提高。通过FineBI的联动功能，可以采用RFM模型对每个用户群体可以定性分析，来进一步精细化运营。对于48位流失的高价值客户，该用户群体购买订单以时尚品为主，并且主要居住在三线城市，可以针对性投放关于时尚前沿的直播、采取VIP专享快递等服务增强其体验感。从抱怨情况这个维度来看，对平台有抱怨的用户普遍流失率高于未抱怨的用户。从满意度这个维度来看，不同满意度对应的流失率并没有像常识上的流失率随着满意度的上升而下降。现金奖励最少的区间段内流失率最高；随后现金奖励的增加，流失率逐步下降。其中有两个拐点值得注意，分别是150-200和250-300区间段内。 5.3 总体呈现六、总结与建议该APP的用户群体主要是70后和80后，可以重点针对该群体做直播内容优化、兴趣引导，如少用潮流性话术、多使用大众性话术等。而针对流失率随着用户群体年龄区间增大而增大的现象，可能是由于该类群体不熟悉APP界面、操作有困难，可以添加如用户界面引导、增大字体和颜色对比度等适老化改造。用户使用时间越长说明活跃度越高、直播间的黏性越大。对于直播间而言，可以多讲趣味性故事、互动抽奖等方式来提高直播间与用户之间的黏性。订单数目主要分布为手机和电脑这类高客单、低复购的产品，可以拓展品牌，以加购手机膜、手机壳等附属设备给予一定优惠等方式来提高复购率。继续下钻不同城市的物流方式、派送方式等，检验不同城市之间是否存在差异。优化二线城市的推送与搜索策略，优先展示近距离商品。随着主播关注数的增加，用户流失率反而提高。平台需要加大对主播的监管力度，采用算法机制优先推送高质量的主播。针对满意度上升流失率反而提高这一现象，需要考虑是否存在买号刷分的情况，通常这些账号在打完分数后就会很快地流失掉。另外可以考虑建立抱怨预警机制，研究可以预测抱怨的用户行为，在抱怨未发生时及时监测及时预警。在满足用户需求的基础上多投入些人力和财力，比如可以对用户进行回访，以问卷调研等形式全方面多维度的调查用户各种各样的需求和直播间体验情况。用户的消费心理通常是现金奖励返还越高，冲动型消费和持续型消费则越强。在保证客单利润率的前提下，可以考虑在直播时采用150-200和250-300的现金奖励返还机制，刺激用户进行消费，以提高用户留存率和成交率。七、心得体会 1、业务角度：在实际业务中，要完全明确数据口径与联结关系，才能更好理解指标含义，加以分析。此外在数据指标体系建立前一定要考虑周到，以免出现后期没法取数的尴尬情况。就本数据集而言，由于数据本身缺少时间维度，并不能通过环同比将现在和过往进行对比，做到用户流失相关指标的监控，从而起到预警的效果；而且受限于数据集现有指标内容，无法进行进一步下钻，锁定根本原因。 2、使用Fine BI：产品总体而言脉络清晰，能够很快上手，但是有些功能隐藏较深，不易发现。增加计算字段不能适用在多个仪表盘，需要复制或者重新创建。图表样式希望可以更丰富些，在使用时发现没有堆积柱状图和折线图的组合形式，以及多层饼状图时出现了锯齿状。

13384浏览

12回帖

FineBI

2022-4-28发布

提问

调整图片尺寸与位置

好久不见呀（uid：1124762）