【2022BI数据分析大赛】工业制药-临床试验质量管理之稽查分析

四月fighting

一、选手简介

1.1 团队介绍

团队名称：临床数据BI小队
成员介绍：

队长白洋，就职于位列全国医药研发行业Top10的XXX制药集团。本人目前从事于临床试验全流程业务数字化、可视化及商业决策数据分析领域，负责事业部临床试验智能决策分析平台构建，是事业部数字化转型项目倡导者与负责人。

成员四月，就职于位列全国医药研发行业Top10的XXX制药企业，9年医药从业经验，精通数据仓库需求分析、建模、ETL等，擅长复杂的问题清晰化、简单化。

成员赵云，就职于位列全国医药研发行业Top10的XXX制药企业，5年临床试验相关工作经验，非常熟悉临床相关业务流程，擅长业务梳理、跨部门对接。

1.2 参赛初衷

随着全民数字化浪潮的兴起，“大数据分析助力业务发展”的理念也在临床试验领域得以扩散，目前众多的临床研究数字化产品还是专注于单个项目的数据，并未站在全流程及公司整体层面进行数据呈现与分析。我们BI小组因此应运而生，旨在深入探讨和挖掘临床数据与临床试验整体运营背后的商业价值。

参加此次比赛的作品，是临床试验质量管理体系里某一重要环节的应用场景；希望通过比赛与更多的医药同行交流探讨，学习各位大神的方法及思路，同时提升团队整体的数据分析能力。

二、作品介绍

2.1 业务背景/需求痛点

创新药研发、开发自主知识产权新药是传统制药企业保持市场竞争力、可持续发展的根本。为此，国内外的龙头制药企业均投入大量的资源用于药物研发。

新药研发的特点是涉及的环节多、研究严谨，一般耗时10-15年，耗资可达数十亿美元，临床试验是其中最重要的一环。临床试验每一环节的开展，都需要严格遵循国际标准的法律法规，容不得一丝纰漏。

国家药品监督管理局药品审评中心制定的GCP2003版的规定：申办者应建立对临床试验的质量控制和质量保证系统，可组织对临床试验的稽查以保证质量。药品监督管理部门、申办者可委托稽查人员对临床试验相关活动和文件进行系统性检查，以评价试验是否按照试验方案、标准操作规程以及相关法规要求进行，试验数据是否及时、真实、准确、完整地记录。

我公司作为药物研发的申办方，成立了专门的质量管理部，制定完善的SOP，针对临床试验涉及的所有研究中心或者供应商，随机抽取一个或多个进行临床试验过程质量的核查。通过记录成百个检查项标准的稽查数据，及时地评价试验过程质量，发现潜在风险，以保证试验质量，促进临床试验的顺利开展及风险规避。

稽查工作的流程如下：

图0-1：稽查工作流程

目前质量管理部在实际的工作过程中，存在如下迫切需要解决的问题：

（1）稽查数据分散在各个稽查员手里，没有统一管理；

（2）数据的收集和统计，仍然依赖于大量的人工上报及Excel统计，每次出报表都需要专人花费大量时间来重新规整和更新，效率极低；

（3）稽查过程及结果数据并没有得以有效的发掘，希望能够与项目、产品、中心等建立整体的联系；

（4）各QA(稽查员/审核员）的稽查效率、工作量分布无法得到有效的数据支撑；

（5）稽查出的问题分布及相关原因，单从Excel里无法得到有效的分析。

（6）各任务环节一直无法得出合适的限定标准/评定标准。

针对问题项（1）和（2），通过简道云的流程梳理和数据收集，得以解决；对于数据的分析，则需要依托于数据仓库和FineBI来解决。

2.2 数据来源

本次参赛使用了企业数据。团队成员对公司数据做了脱敏处理，最终确定使用DM层的3张数据表。

分别是：稽查基本信息数据集、稽查质量问题数据集、稽查执行人员数据集。

本参赛作品计划针对以下分析角度：

1. 宏观指标；
2. 稽查类别及发现项统计；
3. 撰写稽查报告时效分析；
4. 稽查部门内人员贡献分析；
5. 稽查质量分析-项目维度；
6. 稽查质量分析-研究中心维度。

2.3 分析思路

2.3.1 核心指标体系搭建

本次参赛我们选择了临床试验稽查这个应用场景。相应的分析视角包含：团队内贡献分析、稽查过程整体时效分析、稽查质量分析。

分析框架与问题的拆解思路分别如下图1-1、图1-2所示。

$C:\Users\Administrator\Desktop\临床试验质量稽查.png$

图1-1：临床试验质量稽查框架

图1-2：问题拆解思路

这里以稽查时效分析为例，进行分析体系搭建说明：

1. 指标拆解，这里设计了3个指标，计算方法分别如下：
- 稽查时长 =结束时间-开始时间；
- 报告发布时长 =发布时间-结束时间；
- 是否按时关闭=计划时间-实际时间
2. 维度细分：稽查类别、时间纬度(年度/月度)。
3. 数据口径定义。
4. 全面检查复核所有指标的口径和维度，并确定更新周期。

说明：稽查大类分为4种：TMF稽查、中心稽查、供应商稽查、药品稽查，每种大类下各有细分的子类和明细项。

分析体系如下图所示：

$C:\Users\Administrator\Desktop\稽查时效分析.png$

图1-3：分析体系(稽查时效)

同理，可以对成员贡献、稽查质量进行分析体系搭建。此处不再赘述。

2.3.2 看板模块结构

以稽查全局看板为例：

整个数据看板可以分为两个部分，共计6个模块，各个模块拆分出不同的分析角度，如下图所示：

图1-3：看板架构

本次呈现的数据均为公司XXXX-XXXX年临床试验稽查数据，数据已脱敏处理。

2.4 数据处理

2.4.1 DM层数据集

由ODS层数据、EDW层数据制作用于看板使用的DM层数据集。

ODS层存储通过接口程序从多个应用系统抽取基础数据，在EDW层对数据进行清洗、转化、筛选、连接、汇总等操作，汇总成稽查基础信息数据集、稽查角色信息数据集、稽查质量数据集，并专门整理了某些专用数据集。

数据处理过程均使用Mysql数据库，编写存储过程，自动化运行生成最终数据集，并存放在数据仓库DM层。

2.4.2 维度与度量值

根据上文的分析架构体系，确定明确的数据指标及相关维度。

通过多个维度的交叉、联动，分析出相关指标的变化趋势，并依据历史数据分析因果，从而为相关业务人员制定合理的应对策略，持续、良性地提升临床试验质量。

2.5 可视化报告

2.5.1 看板整体布局

(1) 模块1：宏观指标展示

图2-1：宏观指标模块

宏观指标默认显示为总量，比如总稽查次数，总发现项数，总例次数等等。

本模块最右边设置了一个文本过滤组件（稽查年份），便于产生数据联动，展示出相应年份的宏观数据指标。

(2)模块2：稽查类别及发现项统计

图2-2-1:稽查类别及发现项统计模块

图2-2-2:稽查类别及发现项统计模块

图2-2-3:稽查类别及发现项统计模块

图2-2-4:稽查类别及发现项统计模块

此模块使用了7个组件：

组件1：柱状图中，展示了1个指标(总稽查次数、未关闭次数、延误次数)，1个维度 (稽查年月)。

组件2：散点图，展示了2个指标(整改时长、延误时长)，2个维度 (是否延误、稽查类别)，4条警戒线(是否延误、延误均值、整改均值、整改上限)。

组件3：词云图中，展示了1个指标(每类延误原因统计数)，1个维度 (延误原因)。

组件4：分区柱状图中，展示了2个指标(稽查次数、发现项数)，1个维度 (稽查类别)。

组件5：饼图，展示了1个指标(发现项数)，1个维度 (问题严重等级)。

组件6：雷达图中，展示了1个指标(稽查时长均值)，1个维度 (稽查类别)。

组件7：堆积柱状图中，展示了3个指标(发现项数、例次、例次/发现项)，2个维度 (发现项大类、问题严重等级)。

(3)模块3：撰写稽查报告时效分析

图2-3:撰写稽查报告时效分析模块

此模块使用了3个组件：

组件1：柱状图中，展示了1个指标(报告发布时长)，2个维度 (稽查类别、稽查唯一标识)，1条警戒线(撰写平均时长)。

组件2：散点图中，展示了2个指标(延误天数、发现项数)，3个维度 (稽查唯一编号、稽查类别、例次)，2条警戒线(平均发现项数、平均延误天数)，1条拟合线。

组件3：散点图中，展示了2个指标(整改时长、发现项数)，3个维度 (稽查唯一编号、稽查类别、例次)，2条警戒线(平均发现项数、整改均值)，1条拟合线。

(4)模块4：稽查部门内人员贡献分析

图2-4:稽查部门内部人员贡献分析模块

此模块使用了2个组件：

组件1：对比柱状图中，涉及1个指标(稽查次数)， 2个维度(稽查角色、稽查人员)。

组件2：散点图中，涉及2个指标(稽查员次数，审核员次数)， 1个维度(稽查人员唯一标识符)，2条警戒线(稽查员次数均值，审核员次数均值)。

(5)模块5：稽查质量分析-项目维度

图2-5-1:稽查质量-项目维度模块

图2-5-2: 稽查质量-项目维度模块

此模块使用了5个组件：

组件1：分区柱状图中，展示了4个指标(稽查次数、发现项数、例次、例次/发现项数)，1个维度 (项目)。

组件2：组合条状图中，展示了2个指标(发现项数、发现项数累计)，1个维度 (项目编号)，1条警戒线(80%发现项累计警戒线)。

组件3：组合条状图中，展示了2个指标(例次、例次累计)，1个维度 (项目编号)，1条警戒线(80%例次累计警戒线)。

组件4：组合条状图中，展示了2个指标(工时消耗、工时消耗累计)，1个维度 (项目编号)，1条警戒线(80%工时消耗累计警戒线)。

组件5：条状图中，展示了1个指标(例次/发现项)，1个维度 (项目编号)，1条警戒线(例次/发现项均值)。

(6)模块6：稽查质量分析-研究中心维度

图2-6: 稽查质量-研究中心维度模块

此模块使用了4个组件：

组件1：分区柱状图中，展示了4个指标(稽查次数、发现项数、例次、例次/发现项数)，1个维度 (研究中心)。

组件2：条状图中，展示了1个指标(发现项数)，2个维度 (项目编号、中心名称)。

组件3：条状图中，展示了1个指标(例次)，2个维度 (项目编号、中心名称)。

组件4：条状图中，展示了1个指标(例次/发现项)，2个维度 (项目编号、中心名称)。

2.5.2 可视化分析

2.5.2.1 概况

宏观指标体现稽查工作的汇总数据，包含稽查次数、发现项（即检查项）数量及类别、涉及的项目数、中心数、参与人员等等，整体层面的数据一目了然。

这些宏观指标会伴随过滤组件的变动产生数据联动。

图3-1:宏观指标呈现

2.5.2.2 稽查类别及发现项统计

下图3-2-1，按年度/月度的维度统计了总稽查次数/延误次数/未关闭次数，表明每一年度各月份工作量、是否延误、是否已关闭等信息。

可便于质量管理部在新一年年初时借鉴历史年度中工作量分布，来预测全年工作计划。

图3-2-1:稽查类别及发现项统计模块-稽查次数年度分布

下图3-2-2，使用波士顿矩阵分析法探索了延误时长与整改时长的内在联系，初步表明延误时长与整改时长呈线性关系。

后期可进一步探索影响整改时长的因素，优化出标准整改时长。

同时展示了延误原因词云图，展示造成延误的原因。从中我们可以看出最突出的几点延误原因，针对性地找出改进办法。

图3-2-2:稽查类别及发现项统计模块

下图3-2-3，展示了3部分内容：

左图展示了不同类别稽查，稽查次数与发现项统计量展示。图中可看出稽查次数/发现项都集中在中心稽查这一稽查类别，符合帕累托模型(25%的稽查类别工作量占比总工作量的80%)，说明试验稽查工作重心在中心稽查这一稽查类别。
中图展示了问题严重级别分布，表明96%属于轻微类，后期可以根据三者占比刻画反应该中心稽查质量的相关度量指标。
右图雷达图展示了每一类稽查类别平均耗时，后期可刻画每类稽查安排时长的合理程度。

图3-2-3:稽查类别及发现项统计模块

下图3-2-4，展示各问题主类中产生的发现项、例次、例次/发现项3个指标分布。

后期可进一步分析，是否符合帕累托模型，然后着重解决那些产生80%发现项、例次的20%主类，快速提升临床试验稽查质量。

图3-2-4: 稽查类别及发现项统计模块

2.5.2.3 撰写稽查报告时效分析

下图3-3，展示了3部分内容：

上图展示了每次稽查报告撰写时长，且使用稽查类别作为颜色区分不同的稽查类别。同时添加了撰写时长均值警戒线，能够方便查看异常值，也能查看每次稽查撰写时长在均值附近的波动，据此制定每类稽查撰写报告标准时长。
左下图使用波士顿矩阵分析法，探索了延误时长与发现项数量的内在联系，初步表明延误时长与发现项数量呈线性关系。后期进一步探索发现项多、但延误较少的稽查，学习经验，优化标准整改时间。
右下图使用波士顿矩阵分析法，探索了整改与发现项数量的内在联系，初步表明整改时长与发现项数量也是呈线性关系。后期进一步探索发现项多、但整改较少的稽查，分析原因，优化标准整改时间。

图3-3: 撰写稽查报告时效分析模块

2.5.2.4 稽查部门内人员贡献分析

下图3-4，展示了2部分内容：

左图展示质量稽查部门各人员的贡献，从中可以发现主力员工。整体部门的工作量分布还是很集中的，主力员工承担了大部分工作。
右图展示质量稽查部门各人员的贡献象限图，该象限图可以作为团队绩效管理的参考，调整每一象限人员的职级、全年分工等，来优化团队，提升团队战斗力。

图3-4: 稽查部门内部人员贡献分析模块

2.5.2.5 稽查质量分析-项目维度

下图3-5-1，展示了各项目的4个度量指标（稽查次数、发现项、例次、例次/发现项），可以综合衡量各项目的稽查质量。

后期可以通过这些指标刻画一个项目的稽查质量整体情况。

图3-5-1: 稽查质量-项目维度模块

下图3-5-2，左3张图使用帕累托模型，分别从发现项、例次、工时去分析贡献80%(发现项、例次、工时)分别涉及到哪些项目，从中找到值得重点关注的项目。

右图衍生了KPI指标(例次/发现项)，并降序排序，可分析各项目的发现项和例次的情况。排名第一的这个项目，说明存在很多的问题，需要增加稽查力度，比如增加稽查次数、扩大稽查的范围。

图3-5-2: 稽查质量-项目维度模块

2.5.2.6 稽查质量分析-研究中心维度

下图3-6，上半部分展示了各研究中心的4个度量指标（稽查次数、发现项、例次、例次/发现项），可以综合衡量各中心的稽查质量。后期可以通过这些指标刻画一个中心的稽查质量整体情况。

下半部分分别从发现项、例次、衍生KPI指标(发现项/例次)3种角度，以项目+中心组合为细粒度，对TOP10的医院重点展示，以便引起足够的重视。

图3-6: 稽查质量-研究中心维度模块

整体仪表盘图片：

03-工业制药-临床试验质量管理之稽查分析.pdf (1.46 M)

2.5.3 总结

此看板中，涉及项目维度(项目/中心)、人员维度(团队成员/角色)、稽查维度(稽查类别、是否延误、问题严重级别、发现项大类、延误原因、稽查唯一标识符)三大维度，10个细分，同时包含8个宏观指标。

看板的结构比较简单，没有采用过于花哨的图表，目的还是在于降低用户的学习成本，让用户能够清晰明了地获取到关键信息点。

看板交付之后，受到了业务部门的高度赞赏，反馈说除了给他们提供了精准的统计数据、减少工作压力之外，对于数据的挖掘和分析角度也给他们的管理提供了更开阔的思路。当然从团队自身来说，由于对于稽查相关业务的深度理解不够，还存在很大的提升空间。

希望能在此次大赛中学习到更多分析思路，去提升团队对BI系统的掌握及制作报告的能力，同时为后边去构建项目/中心/稽查多层次的质量稽查评测模型、稽查团队战斗力评测模型等打下坚实的基础。

三、参赛总结

3.1 FineBI工具

觉得比较好用的BI亮点功能如下：

(1)Tab组件，能够很好地控制看板的长度。

(2)联动功能，能够很容易的实现数据联动。

(3)复用/复制功能，能够很大程度上节省看板设计的时间。

觉得不太人性化的地方如下：

(1)警戒线不能自定义构造公式，期待后边可以实现自定义警戒线。

(2)能否将简道云的数据工厂模块集成到BI,增强BI的ETL功能。

(3)提示信息有覆盖，比如气泡图中，大气泡覆盖小气泡，则小气泡提示信息不能展示。

对数据分析价值的思考如下：

(1)数据分析应用场景：数据监测、数据预测、数据检测。

(2)数据分析四维空间：人、货、场、时间。

(3)四大结论：

维度越低、检测越容易；

高维度的检测就要向低维度去拆解；

检测的方法就是先往下拆分，再左右比对；

要判断检测结果的正确性，需要从低维度，再回到高维度。

3.2 参赛总结

经过一年的数据沉淀和技术沉淀，相对于去年的参赛作品，今年我们团队的作品从分析思路、图表展现方面都有所提高。

当然，我们在进步，从事数据分析工作的同行们也在进步，从今年同学们提交的越来越多让人眼前一亮的作品能够看出，默默深耕的人越来越多了（“卷”起来！）。

比赛是最快速的成长方式，我们会与大家一起，沉下来打造我们自己的竞争力，与帆软一起向未来！

Baiyang1992 · 发表于 2022-4-19 13:41:49

思路清晰，值得一读。

yzm326407 · 发表于 2022-4-19 22:13:51

非常实用！值得学习！

Baiyang1992 · 发表于 2022-4-20 16:36:07

医药行业的小伙伴可以一起探讨。

yzm326407 · 发表于 2022-4-20 20:26:03

??????

加为好友 · 发表于 2022-4-22 12:40:25

在药物临床试验中的应用对数据分析，实验进度会有非常大的帮助，值得学习！

帆软用户CLGdlP1f6a · 发表于 2022-4-25 08:59:13

非常棒，好好学习一下

冥河 · 发表于 2022-4-25 18:07:06

哈哈，想请教下这边的研发投资回报率，是怎么算的呢？想参考以下

Will · 发表于 2022-4-26 19:03:07

逻辑清晰，值得深入学习。

hlq7 · 发表于 2022-4-27 12:08:22

将数据以图表的形式展示出来，方便用户对数据分析、理解，尤其在工业制药行业，是有利于研发进程和结果的。

帆软用户J3KN4KeAIh · 发表于 2022-4-28 11:18:29

分析的不错，学习了

帆软用户KSdMwyO1JS · 发表于 2022-4-28 11:50:05

思路非常清晰，图表一目了然，很值得学习！

帆软用户2u52edGP9h · 发表于 2022-4-28 11:58:03

没有十年的经验，是写不出这么详细的数据分析的，大写的赞

lkl · 发表于 2022-5-8 11:34:32

案例打卡：文章结构清晰，数据分析方法应用也很合理。个人建议，不代表权威：建议把具体的问题说清楚，说明白，也缺少了具体的可执行的的措施！另外，可视化的布局配色也建议多花点心思！

lbstjw · 发表于 2022-5-11 10:12:27

案例打卡：铁三角，呵呵，也可以叫三剑客，三个火枪手。。
数据收集使用简道云的思路很不错啊，我感觉稽查，好像时间、质量这两块最重要。各个医疗指标的确有点难懂，没太看明白，也许业内人士会很熟悉吧。楼主很用心做了这幅作品，很多组件，用到了四象限和abc分类模型，色彩的话，太丰富了，五颜六色，呵呵。但是分析结果写的太少了，估计领导最想看到的还是对结果的建议和以后的做法，从而提供决策思路。最后说，如果能最后加上整体效果图会直观一些，谢谢分享

huangzhuying · 发表于 2022-5-11 18:02:48

案例打卡：作品“核心指标体系”丰富，面板展示模块也很多。作品介绍中的分析思路图、看板结构图、维度图等清晰明了，相较于文字表达更直观，学习了。美中不足的是，作品没有指出解决业务当中哪些具体问题以及解决这些问题的具体思路。

晕晕cc · 发表于 2022-5-12 20:25:15

项目模块的缺陷类别是不是太细了，如1137——x1、x2，他们是不是可以统一划分到，1137这一大类，然后再通过下钻的方式，再找到80%分位数，这样是不是更容易聚焦问题？

流年的你我 · 发表于 2022-5-27 18:49:36

案例打卡：整体的配色感觉有点偏白色，布局和分析还是不错的，分析逻辑也是挺好的

简小凡 · 发表于 2022-5-28 20:29:02

学习了稽查工作的流程，赞一个；分析思路还是可以的，可视化方面可以稍微优化下~

奇奇chi · 发表于 2022-5-30 22:01:50

案例打卡：好专业的医疗方面的仪表盘，大受震撼。第一次见到纵向的帕累托，感觉更加直观。关联分析部分也值得我学习

37回帖数	5关注人数	16322浏览人数
最后回复于：2022-5-30 22:01

提问