释冰的帖子 - 我的帆软

【2022BI数据分析大赛】生产质量管控之产品重量质检分析

一、选手简介 1.选手介绍帆软用户释冰，热衷于数据分析的行业小白一枚，目前在一家企业管理咨询公司从事数据分析相关工作。 2.参赛初衷因为对数据分析行业的强烈好奇，又凭借工作岗位的便利性，在工作和学习中接触过多种数据分析工具，包括Excel生态类工具、数据库工具、数理统计软件、BI工具、编程类等。工作之余总会萌生一些想法：在进行数据分析全流程工作中，似乎每个环节都有数据分析之美的存在。通过本次数据分析大赛的学习与努力，希望能解锁到一款可爱的数据分析工具，在方便自己更高效率工作的同时，又能够不断提高自己的数据分析专业技能和素养。更重要的是，期待这款小可爱能带给我对数据分析新的热情。二、作品介绍 1.业务背景/需求痛点业务背景某生产制造企业的质量管控部门业务员，日常负责监控生产过程、防范异常风险发生、产品质量评价等工作。需求痛点质量管控部门每月度/季度/年度会作一次考核评价，需要向公司管理层汇报周期性报表，展现核心指标现状，辅助管理层进行经营决策和生产决策。 2.数据来源数据源：本作品选用经过脱敏处理的企业数据集作为数据源。关键质量特性(CTQ)：产品重量SD（距离技术标准的平均偏差）及其合格率、达标率。数据集采集到的字段结构：产品抽检时间、生产机组、机组排班、质检员班次、品牌类别、市场分类、达标线线(mg)、平均重量(g)、重量SD(g)、抽检不合格数。数据源涉及的加工环节：包含“过程”和“转序”两部分。数据脱敏操作：对品牌标签进行不同字符长度的内容替换与保留。 3.分析思路如针对产品重量作为唯一关注指标，衍检验批次生合格率与达标率两个计算指标，每个指标均能向时间维度作趋势性延展和其他各维度联合分析。重量SD与其达标线、市场分类之间明确有对应关系，即市场分类为12类的重量SD为18.5mg，要求最为严苛；其次是3类重量SD为20mg；45类重量SD为21mg，要求相对宽松。向时间维度上作趋势对比、下钻分析，挖掘异常风险类。对多个名义型变量（数值型变量分箱转换处理），可以作桑基图可视化，进行节点路径分析，找到整个工厂的不同生产管控行为之间的关系，从而挖掘出规律以寻求瓶颈。对合格率与达标率作ABC分析，以定位牵制合格率达标率提升的因素，从而推动产品质量的优化提升。从宏观视角对指标作全局把握，从而可以索引到明细数据。 4.数据处理数据集抽取：从每月生产质检数据表中抽取抽取上述所列数据字段，进行年度汇总（特别注明：9月工厂停产无数据，1月无过程检验数据）。数据集合并：将抽取到的转序和过程检验两个工序段数据集进行上下合并，即相同字段进行合并（特别注明：抽检频次为，转序工序段每机组每排班每质检员班次仅抽检1次，过程检验工序段每机组每排班每质检员班次抽检次数大于1次，在自助数据集中新增计算字段“抽检次序”加以标识）。新增计算字段 1)价牌：合并连接“品牌类别”与“市场分类”两个文本型维度字段； 2)重量SD(mg)：重量×1000，将单位克换算为毫克，“平均重量”亦换算为毫克，字段名为“重量(mg)”。 3)合格与否（达标与否）：对明细数据集操作，若抽检不合格数为零标记为1，表示合格，否则为0，表示不合格；若重量SD不大于达标线则标记为1，表示达标，否则为0，表示未达标。 4)合格率（达标率）：使用聚合技术函数新增聚合字段。合格率=合格数/总检测数，即“合格与否”计数/记录数；达标率=达标数/总检测数，即“达标与否”计数/记录数(特别注明：合格率是重量质检合格率，达标率是重量SD达标率)。 5)年/月/日/季度：从“产品抽检时间”字段利用日期函数分别进行提取。数据清洗异常值处理：剔除了1条异常数据记录。加工工序为过程检验时，有一记录，其重量值为635.7mg明显低于整体分布200mg以上，且为早班质检人员所测，经查实有操作失误嫌疑，故将其剔除。缺失值处理：对数据集缺失值进行核查后作常量值插补（用于数据挖掘时可进行统计值替换、模型预测替换等插补方式），如品牌类别、生产机组、班次等文本型字段值缺省等情况进行核查后作常量插补。 5.可视化报告（1）ABC分析 ABC分析法，又称为帕累托分析、柏拉图分析、二八定律等，核心是揭示事务规律存在少数项目往往体现大部分价值的思想。该步骤关键在于“累计占比指标”的计算。同时，对在制作图形组件时，根据累计占比将对象进行重要占比划分（二八分析则将对象进行二八占比划分），最后通过不同颜色的柱形图体现分析结果。关键指标“累计达标率占比”计算公式为：累计达标率占比=ACC_SUM(AVG_AGG(${达标率(%)})/TOTAL(AVG_AGG(${达标率(%)}),0,"sum")) 根据累计占比，判断指标的重要性，3类达到90%以上，最为重要，划分为大类；其次是2类，归属为中类；1类相对重要性不强，在70%以下，属于小类，尚待优化提高。随类别层级递进，对整体核心指标贡献度逐级递减。（2）达标率诊断分析从时间维度上拆分达标率，具体是在Q2Q4(下钻至6&12月)达标率突然低然后回升，是否存在周期性？从季度上看，答案是存在的。那是否还有更具体的情形？如此持续下去，预计在2022年初达标率将低于50%，这是可怕的。对比不同市场价类，达标率是否存在某一节点有不同反应？ 12类3类对比发现，12类产品的规律曲线与总体曲线轮廓相似，虽然一致很低但走势预判很好，反而45类产品衰退迹象凸显。故而应重点关注12类和45类的质量提升和稳定。结合品类产量信息，得知12类中Y-L产量最盛，配合生产的机组竟分布全厂10台机器，和45类T-King一样是举全厂之力攻坚的产品，然而12类的达标率只有52.58%，远远不及及格线，后续应考虑是否要继续生产，亦或是想办法提高质量（是否该品类产品本身存在技术设计缺陷后续应调研综合考虑）。后续可对比市场上同类厂家、行业内同一产品作竞品调研分析，继续挖掘可改善的途径。（3）重量及其合格率，SD达标率间相关分析从不同价类维度是否能发现一致规律？显然，结果表明有存在一致规律，即不同产品在符合MECE原则拆解后，亦有一致的客观规律：当产品的重量增加在一定范围内，其大部分达标的产品其SD值是会随即增加的，对应的达标率会一定程度衰减。当然，结果规律必然是有前提条件的，当超过限定条件时，出现离群点在所难免，但对于稳态生产过程来说，大量利群点出现的是否，生产过程已经存在很大风险了。最终结果呈现的页面布局三、参赛总结 1.FineBI工具在使用过程中，认为该工具在数据集处理方面相对具有智能性，和其他数据分析工具保持了惯用的操作函数、流程等，上手比较容易。在线WEB端的操作体验，更适合推荐团队协作共享。丰富的帮助文档和帆软社区、帆软系列产品，行业覆盖面较广，业务专业性也更突出，个人感觉学习体验感较满意的。我认为，一个好用且讨喜的BI类数据分析工具，能让用户对可视化的结果，从多维度去拆解、对比、钻取等看待和发现问题时，这个BI工具是基本成功的。 2.参赛总结在本次参赛过程中，越发觉得习得数据分析思维远远比很快学会一门工具来的更重要。方法可以复制和借鉴，业务规则可以在所工作的行业中得到充沛，未来工具技能的学习也将更便捷化，然而思维的练就却是不容易的，往往需要很多次的重新再来。必然，此次新上手学习一门工具无疑是有困难的，但能够利用闲暇时间去沉淀积累，同时又不断学习新思路新理念，结果总归会有一个不错的体验，这是我参加本次数据分析大赛的最大感触。随着数据分析行业的不断壮大发展，许多行业标准的不断规范出台，很多专业数据分析师及其相关从业者的辛勤付出，我越发践行，未来几年内数据分析技能普适化已然曙光在前了。

22132浏览

6回帖

FineBI

2022-4-27发布

提问

调整图片尺寸与位置

释冰（uid：1118676）