【2022BI数据分析大赛】 生产质量管控之产品重量质检分析
一、选手简介
1.选手介绍
帆软用户释冰,热衷于数据分析的行业小白一枚,目前在一家企业管理咨询公司从事数据分析相关工作。
2.参赛初衷
因为对数据分析行业的强烈好奇,又凭借工作岗位的便利性,在工作和学习中接触过多种数据分析工具,包括Excel生态类工具、数据库工具、数理统计软件、BI工具、编程类等。工作之余总会萌生一些想法:在进行数据分析全流程工作中,似乎每个环节都有数据分析之美的存在。
通过本次数据分析大赛的学习与努力,希望能解锁到一款可爱的数据分析工具,在方便自己更高效率工作的同时,又能够不断提高自己的数据分析专业技能和素养。更重要的是,期待这款小可爱能带给我对数据分析新的热情。
二、作品介绍
1.业务背景/需求痛点
业务背景
某生产制造企业的质量管控部门业务员,日常负责监控生产过程、防范异常风险发生、产品质量评价等工作。
需求痛点
质量管控部门每月度/季度/年度会作一次考核评价,需要向公司管理层汇报周期性报表,展现核心指标现状,辅助管理层进行经营决策和生产决策。
2.数据来源
数据源:本作品选用经过脱敏处理的企业数据集作为数据源。
关键质量特性(CTQ):产品重量SD(距离技术标准的平均偏差)及其合格率、达标率。
数据集采集到的字段结构:产品抽检时间、生产机组、机组排班、质检员班次、品牌类别、市场分类、达标线线(mg)、平均重量(g)、重量SD(g)、抽检不合格数。
数据源涉及的加工环节:包含“过程”和“转序”两部分。
数据脱敏操作:对品牌标签进行不同字符长度的内容替换与保留。
3.分析思路
如针对产品重量作为唯一关注指标,衍检验批次生合格率与达标率两个计算指标,每个指标均能向时间维度作趋势性延展和其他各维度联合分析。
重量SD与其达标线、市场分类之间明确有对应关系,即市场分类为12类的重量SD为18.5mg,要求最为严苛;其次是3类重量SD为20mg;45类重量SD为21mg,要求相对宽松。
向时间维度上作趋势对比、下钻分析,挖掘异常风险类。
对多个名义型变量(数值型变量分箱转换处理),可以作桑基图可视化,进行节点路径分析,找到整个工厂的不同生产管控行为之间的关系,从而挖掘出规律以寻求瓶颈。
对合格率与达标率作ABC分析,以定位牵制合格率达标率提升的因素,从而推动产品质量的优化提升。
从宏观视角对指标作全局把握,从而可以索引到明细数据。
4.数据处理
数据集抽取:从每月生产质检数据表中抽取抽取上述所列数据字段,进行年度汇总(特别注明:9月工厂停产无数据,1月无过程检验数据)。
数据集合并:将抽取到的转序和过程检验两个工序段数据集进行上下合并,即相同字段进行合并(特别注明:抽检频次为,转序工序段每机组每排班每质检员班次仅抽检1次,过程检验工序段每机组每排班每质检员班次抽检次数大于1次,在自助数据集中新增计算字段“抽检次序”加以标识)。
新增计算字段
1)价牌:合并连接“品牌类别”与“市场分类”两个文本型维度字段;
2)重量SD(mg):重量×1000,将单位克换算为毫克,“平均重量”亦换算为毫克,字段名为“重量(mg)”。
3)合格与否(达标与否):对明细数据集操作,若抽检不合格数为零标记为1,表示合格,否则为0,表示不合格;若重量SD不大于达标线则标记为1,表示达标,否则为0,表示未达标。
4)合格率(达标率):使用聚合技术函数新增聚合字段。合格率=合格数/总检测数,即“合格与否”计数/记录数;达标率=达标数/总检测数,即“达标与否”计数/记录数(特别注明:合格率是重量质检合格率,达标率是重量SD达标率)。
5)年/月/日/季度:从“产品抽检时间”字段利用日期函数分别进行提取。
数据清洗
异常值处理:剔除了1条异常数据记录。加工工序为过程检验时,有一记录,其重量值为635.7mg明显低于整体分布200mg以上,且为早班质检人员所测,经查实有操作失误嫌疑,故将其剔除。
缺失值处理:对数据集缺失值进行核查后作常量值插补(用于数据挖掘时可进行统计值替换、模型预测替换等插补方式),如品牌类别、生产机组、班次等文本型字段值缺省等情况进行核查后作常量插补。
5.可视化报告
(1)ABC分析
ABC分析法,又称为帕累托分析、柏拉图分析、二八定律等,核心是揭示事务规律存在少数项目往往体现大部分价值的思想。
该步骤关键在于“累计占比指标”的计算。同时,对在制作图形组件时,根据累计占比将对象进行重要占比划分(二八分析则将对象进行二八占比划分),最后通过不同颜色的柱形图体现分析结果。
关键指标“累计达标率占比”计算公式为:累计达标率占比=ACC_SUM(AVG_AGG(${达标率(%)})/TOTAL(AVG_AGG(${达标率(%)}),0,"sum"))
根据累计占比,判断指标的重要性,3类达到90%以上,最为重要,划分为大类;其次是2类,归属为中类;1类相对重要性不强,在70%以下,属于小类,尚待优化提高。随类别层级递进,对整体核心指标贡献度逐级递减。
(2)达标率诊断分析
从时间维度上拆分达标率,具体是在Q2Q4(下钻至6&12月)达标率突然低然后回升,是否存在周期性?从季度上看,答案是存在的。那是否还有更具体的情形?如此持续下去,预计在2022年初达标率将低于50%,这是可怕的。
对比不同市场价类,达标率是否存在某一节点有不同反应?
12类3类
对比发现,12类产品的规律曲线与总体曲线轮廓相似,虽然一致很低但走势预判很好,反而45类产品衰退迹象凸显。故而应重点关注12类和45类的质量提升和稳定。
结合品类产量信息,得知12类中Y-L产量最盛,配合生产的机组竟分布全厂10台机器,和45类T-King一样是举全厂之力攻坚的产品,然而12类的达标率只有52.58%,远远不及及格线,后续应考虑是否要继续生产,亦或是想办法提高质量(是否该品类产品本身存在技术设计缺陷后续应调研综合考虑)。后续可对比市场上同类厂家、行业内同一产品作竞品调研分析,继续挖掘可改善的途径。
(3)重量及其合格率,SD达标率间相关分析
从不同价类维度是否能发现一致规律?
显然,结果表明有存在一致规律,即不同产品在符合MECE原则拆解后,亦有一致的客观规律:当产品的重量增加在一定范围内,其大部分达标的产品其SD值是会随即增加的,对应的达标率会一定程度衰减。
当然,结果规律必然是有前提条件的,当超过限定条件时,出现离群点在所难免,但对于稳态生产过程来说,大量利群点出现的是否,生产过程已经存在很大风险了。
最终结果呈现的页面布局
三、参赛总结
1.FineBI工具
在使用过程中,认为该工具在数据集处理方面相对具有智能性,和其他数据分析工具保持了惯用的操作函数、流程等,上手比较容易。在线WEB端的操作体验,更适合推荐团队协作共享。丰富的帮助文档和帆软社区、帆软系列产品,行业覆盖面较广,业务专业性也更突出,个人感觉学习体验感较满意的。
我认为,一个好用且讨喜的BI类数据分析工具,能让用户对可视化的结果,从多维度去拆解、对比、钻取等看待和发现问题时,这个BI工具是基本成功的。
2.参赛总结
在本次参赛过程中,越发觉得习得数据分析思维远远比很快学会一门工具来的更重要。方法可以复制和借鉴,业务规则可以在所工作的行业中得到充沛,未来工具技能的学习也将更便捷化,然而思维的练就却是不容易的,往往需要很多次的重新再来。必然,此次新上手学习一门工具无疑是有困难的,但能够利用闲暇时间去沉淀积累,同时又不断学习新思路新理念,结果总归会有一个不错的体验,这是我参加本次数据分析大赛的最大感触。随着数据分析行业的不断壮大发展,许多行业标准的不断规范出台,很多专业数据分析师及其相关从业者的辛勤付出,我越发践行,未来几年内数据分析技能普适化已然曙光在前了。