【简道云·插件开发大赛】天下第一:数据挖掘机

楼主
我是社区第845866位番薯,欢迎点我头像关注我哦~
15

一、选手介绍

  • 团队名称:天下第一
  • 团队成员:
    • 宋云锋:B端企业十余年数字化经历者,深谙数据分析落地之痛
    • 王希梦:持续创业者,科技公司CEO
    • 叶良辰: 正经不太正规的产品经理
  • 参赛初衷:职场经历深悟数分痛点,做个工具看看能不能让大家多点躺平的时间

二、作品介绍

插件:数据挖掘机

  • 插件简介:
    • 不再被说没有B数了!业务数据无头绪?没关系!统计学理论知识无根基?不着急!数据探索太费时?别担心!数据价值挖掘机自动帮您理清业务数据关系,让您不费吹灰之力,洞察业务规律!
    • 业务数据的规律自动挖掘,提供深入剖析业务的小抓手
  • 插件详细介绍:
    • 适用行业:通用型,不区分行业,适用于B端业务的潜在规律探索
    • 需求场景说明:
      • 痛点:B端的数据分析因为专业门槛高、数量量本身并不大、时间精力少(无专人专岗)等原因,很难及时对数据进行主动剖析
      • 痛点原因:数据挖掘需要专业工具、统计理论知识以及专门的人力投入,且投入回报比并不高(不一定投入了就有发现,也不一定发现了就能落地决策),因此对数据的应用大多停留在汇总、排名上
      • 价值:对数据简单的统计仅仅能说明过去,深入分析后寻找到的规律也许可以预测未来;单纯的比例、绝对数量量并不能合理的解释业务差异,借助统计知识,可以科学的辅助决策
      • 解决方案:基于统计学理论,寻找到有显著关联性的业务数据,提示给用户去判断是否进一步探索
        • 结果进一步分析建议:
          • 分类变量关系:存在显著的比例偏好,需要进一步比较差异或检验
            • 如品类(加湿器、雨伞)*区域(南方、北方)关系显著,数据可能说明北方更喜欢加湿器,应该在北方多投放营销活动
          • 定量变量关系:存在显著的正相关或负相关,可进一步研究变量之间的预测系数
            • 如销售额*营销费用关系正相关,数据可能说明增大营销费用可提升销售额,根据比例调整营销费用;反之不显著,则营销费用增加也无法提升销售额,需要降本并尝试其他方式
  • 设计思路及实现路径:
    • 设计思路:
      • 获取需要分析的业务数据,对符合统计条件的业务数据进行分析
      • 找到分类数据(如品类、区域)、定量数据(如成交额与人数)的显著的相关性信息,回写到用户指定的表单
    • 实现路径:
      • 获取数据(智能助手中用户指定)-数据分析(后台)-数据回传(智能助手中用户粘贴回传表单,这里无法选择,待平台增加此功能)
    • 插件配置说明:
      • 新建回写表单(名称任意),包含四个字段(全文本字段:变量1、变量2、关系类别、详细说明)
        • 此时需要手动获取表单ID——网页链接上from后面两个“/”中间的字符串
      • 在所需要分析的表单中选择【编辑】-【拓展功能】-【新建智能助手】-【定时重复】(建议))-选择应用ID、当前表单ID、填写回写的表单ID(新建时获取)
      • 定期查询分析结果:新建统计表或回写表单后台查询(可设置智能推送)
        • 结果示例:
        • 统计图表(建议添加)

三、关于插件的补充说明

1. 插件的核心思想

结合上图,C端企业这4个部分都玩的很熟,头部玩家的3和4部分基本上都用到了机器学习及智能算法了。但对于B端企业,一切都没有那么容易,能很好的把诊断型分析做到已经是巨大的进步了。

描述性分析是企业里数据统计最常用用到的,它通常通过excel、BI或系统自带图表对业务关心的数据进行统计、排名、汇总,可以很好的作为一个“体温计“,告知发生了什么。

诊断型分析通常是在前者的基础上,对关心的指标数进行进一步探究,通常使用切片的方式进行推理,通常是由业务主动发起,它并不常发生,尤其是在B端企业(原因在2.4.2的痛点原因中说明)。而要做到科学的诊断,还需要在归因和决策前研究跟过的数据特征及关系:业务数据类型、数据分布,结合不同的分布使用不同的数据验证方法。标准流程需要懂业务也懂数据的人使用专业工具花不少的时间进行操作,且不一定有收获。

插件的逻辑/亮点在于:不需要用户主动去探究一些不一定有结果的信息,“线索”自动跑出来,由用户自行决定是否做进一步的探究(业务字段的意义及重要性只有用户自己知道,必须也只能由用户判断),它跨过了启动门槛,但仍需要用户懂一定的统计学知识,以理解返回信息的统计学意义。

2、插件分析的数据类型及方法

  • 数据(只判断两个数据的关系):
    • 简道云数据类型:
      • 分类:下拉框、单选框
      • 定量:数据
    • 分类数据与分类数据:
      • 判断:关系是否独立(如不同的性别是否喜欢不同类型的产品)
      • 方法:卡方检验
      • 显著性系统:0.05
      • 数据要求:数据量大于40,且分类不少于1,不多于3,共三种:2*2,2*4,2*3
      • 补充说明:多于3的情况可以检验出独立性,但太难去解释,要做的两两比对更多
    • 定量数据与定量数据:
      • 判断:关系是否独立(如增加投入是否可以提高销量/销售额)
      • 方法:皮尔逊相关
      • 显著性系统:0.05
      • 数据要求:数据量超过40
      • 补充说明:相关性不等于因果,需要结合实际情况判断先后顺序或并发关系

3、插件将拓展的功能

  • 算法丰富:
    • 新增数据类型:
      • 复选框、日期
    • 新增数据关系
      • 分类数据与定量数据
        • 方法:t检验/F检验
      • 分类数据与日期
      • 定量数据与日期
    • 相关性增加定量数据是否满足正态,及分布的峰度与坡度分析(用于决定使用相关算法)
  • 简道云功能丰富
    • 返回值的自动化:无需用户手动填写ID、无需用户创建返回表单、无需用户创建报表
    • 返回形式的可视化:返回交叉统计报表及可交互图形
    • 返回数据的任务化:指定人完成确认/忽视的任务
分享扩散:

沙发
发表于 2022-11-25 10:11:36
15
封面好评,内容有趣!
板凳
发表于 2022-11-25 11:51:39
15
🙋‍
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

2回帖数 1关注人数 5604浏览人数
最后回复于:2022-11-25 11:51

返回顶部 返回列表