【2021夏季挑战赛】工业制药-数据探究
一、选手简介1.1选手介绍网络签名白洋,目前就职于XXX制药公司,我司位列全国医药研发行业Top10。目前从事临床试验商业数据分析工作,个人感兴趣的方向和领域:如何帮助传统制造企业实施数字化转型,以数据资产,驱动企业业务优化。 1.2参赛初衷 目前大数据分析并未系统化的在临床试验领域大规模应用;我司成立数据BI小组,以深入探讨和挖掘临床数据与临床试验整体运营背后的商业价值。二、作品介绍2.1业务背景/需求痛点创新药研发、开发自主知识产权新药是传统制药企业保持市场竞争力、可持续发展的根本。为此,国内外的龙头制药企业均投入大量的资源用于新药研发。新药研发的特点是涉及的环节多、研究严谨,一般耗时10-15年,耗资可达数十亿美元,临床试验是其中最重要的一环。近年来,我公司创新药临床试验项目逐年增多,由最开始的几个项目增至一百多个,公司投入也逐年加大,传统的人工管理方式存在进度管控滞后、信息更新不及时、过程管理不规范等弊端,浪费大量人力、物力、财力。 为改善管理局面,研发部门开始使用相关的数据应用系统,包括IRT(随机系统)、EDC(临床数据管理系统)、CTMS(项目管理系统)等应用系统。但这些系统生成的数据仅仅作为证据,用来撰写临床试验报告,在新药完成试验后递交给国家药监局审查。以项目为范畴,独立存在。且以上系统均为SaaS架构,数据分散存储于不同系统供应商的平台上,无法实现统一管理。而实际上,这些数据的背后隐藏着每一类试验的关键节点、进度、受试者质量、财务花费是否合理等信息,覆盖到临床试验运营的方方面面。数据的价值,并没有得以充分的挖掘。如果能够成体系的将这些数据沉淀下来、标准化,对于类似我公司这样创新型药企来说,将大大提升临床试验的运营效率,节省研发成本,真正地用数据创造财富。 我们要做的就是要打通临床试验各应用系统的数据壁垒,结构化、流程化、成体系的将临床试验相关数据沉淀下来,搭建数据仓库,制定数据相关标准,进一步服务于临床试验运营的方方面面,挖掘临床试验数据的商业价值。 2.2数据来源本次参赛,使用了企业数据。相关人员对公司数据做了脱敏处理,最终确定使用DM层的4张数据表。分别是:项目级汇总数据集、中心级汇总数据集、受试者明细数据集、漏斗图专用数据集。本参赛作品计划针对以下几个问题:
1)宏观指标看板;2)从时间维度、地理纬度、项目维度等视角分析核心指标;3)多维漏斗图的应用(将12个维度分为4个大类,进行临床试验过程分析)。 2.3分析思路2.3.1 核心指标体系搭建业务流程上,临床试验中受试者的入组是重要节点。整个试验过程,受试者需参与的环节包含签署知情同意书、对受试者按照试验标准进行筛选、受试者入组(即开始服用试验药物)、受试者用药期间进行访视、异常出组、完成研究。
本次参赛我们提取了3个重要节点,分别是:参与筛选、入组、异常出组(即脱落)。相应的核心指标分别为:筛败率(入组率)、达成率(差值)、脱落率。
145014
图1-1:核心指标
145015
图1-2:指标体系思路
这里以达成率(差值)为例,进行核心指标体系的搭建:
(1)指标拆解:达成率=实际入组人数/计划入组人数,差值=实际入组人数-计划入组人数。
(2)维度细分:时间维度(年份、月度)、项目维度(产品、项目)、地理纬度(大区、省份、中心)
说明:项目维度里,产品与项目是一对多的关系,即一个产品(药物)可能会针对不同的病症开展多个项目。
(3)数据口径定义。
(4)全面检查复核所有指标的口径和维度,并确定更新周期。
指标体系如下图所示:
145016
图1-3:达成率核心指标体系
同理,可以对筛败率、脱落率进行指标体系搭建。此处不再赘述。 2.3.2 看板模块结构依旧以达成为例:
整个数据看板可以分为6个模块:宏观指标查看、项目级别筛选、一级维度(年度)、二级维度(月度、项目、大区、省份)、三级维度(中心)、明细数据。
145017
图1-4:计划与达成看板架构
本次呈现的数据均为公司XXXX-XXXX年临床试验数据,数据已经过随机值处理和敏感信息处理。
2.4数据处理2.4.1 DM层数据集由ODS层数据、EDW层数据制作用于看板使用的DM层数据集。ODS层存储通过接口程序从多个应用系统抽取基础数据,在EDW层对数据进行清洗、转化、筛选、连接、汇总等操作,汇总成受试者级数据集、中心级数据集、项目级数据集,并专门整理了漏斗图专用数据集。数据处理过程均使用Mysql数据库,编写存储过程,自动化运行生成最终数据集,并存放在数据仓库DM层。 2.4.2 维度与度量值根据上文的数据指标体系,确定明确的数据指标及相关维度。数据指标为: 差值=实际入组-计划入组; 筛败率=筛败人数/筛选人数; 脱落率=脱落数/入组数。维度最终确定为: 时间维度(年份/月份); 项目维度(项目); 地理纬度(大区、省份、中心)。 通过多个维度的交叉、联动,分析出相关指标的变化趋势,并依据历史数据预测未来一段时间内的数据,从而为相关业务人员制定合理的应对策略,持续、良性地推进相关项目进度。 2.5可视化报告2.5.1 看板整体布局以下内容以计划与入组为例进行梳理:(1)模块1,宏观指标展示。
145020
图2-1:宏观指标模块
宏观指标默认显示为总量,比如总的样本量(预期入组人数),总的产品数,总的项目数等等,会伴随看板其他模块的点击,产生数据联动,展示出相应的数据宏观指标。(2)模块2,项目级别筛选。
145042
图2-2:项目级别筛选模块
此饼状图(公司项目级别)可以将数据分为三类,集团重点、子公司重点、待定。 (3)模块3,一级分析维度(年份)
145021
图2-3:一级分析维度模块
在计划与达成看板中,年份倒序展示,突出最近一年的计划与入组情况,因为领导更看重差值,所以就做了差值这个指标替代达成率,且使用颜色变化体现在入组柱状图中。在数据提示中,用橙色突出显示。 (4)模块4,二级分析维度(月份、项目、大区、省份)
145022
图2-4:二级分析维度模块
使用Tab组件,将二级维度(月份、项目、大区、省份)集成到一起。通过数据联动,能够从多维度进行分析。同时也将差值这个指标,通过颜色体现在入组柱状图中。 (5)模块5,三级分析维度(中心)
145023
图2-5:三级分析维度模块
中心分布作为三级分析维度,放在了最后,因为中心层级已经基本接近于明细数据了。依旧是通过计划入组、实际入组这2个指标来展示,并将差值体现在入组的颜色上。因中心名称较长,故选取中心ID作为横轴标签,中心名称作为提示出现。 (6)模块6,数据明细
145024
图2-6:数据明细
明细数据展示了模块2-5所涉及到的所有维度,并对差值指标做了数据预警,指标(差值)大于等于0,即为达成,使用绿色向上箭头表示;指标(差值)小于0,即为未达成,使用红色向下箭头表示。 通过明细数据的展现,可以明确到各个中心具体进度,责任到人,有针对性地进行工作调整,避免资源重复浪费,提高整个项目的运营效率。 2.5.2 可视化分析 计划与入组看板最为核心的功能为联动分析。 2.5.2.1 概况 宏观数据:30种产品、57个项目、5713样本量、3899计划入组数、3683已入组人数、涉及医院232家。这些宏观指标会伴随年度(一级维度)、月度/大区/省份/项目(二级维度)、中心(三级维度)6个维度,及项目级别(饼状图)的变动产生数据联动。 2.5.2.2 项目类别(饼图)与时间维度-年份(柱状图) 可以对比分析两类项目在各年份的分布:
145027
图3-1:项目对比图1
145028
图3-2:项目对比图2
可以看到子公司重点项目相比集团重点项目,近三年达成情况相对乐观。如果要进一步分析原因,可以下钻到二、三级分析维度进行查看。 2.5.2.3 时间维度-月份、项目维度、地理维度(大区/省份) (1)单维度分析 我们假定要分析2020年度入组情况,并下钻到低纬度去分析原因。点击2020年度,产生数据联动,分布图如下:
145029
图4-1:单维度分析
由上图可知,2020年度1-4月份入组都不是很理想,均为未达成状态,从5月份开始转好,除去7、10两个月,整体表现良好,并完成2020年度总计划。同理可以查看2020年度各项目的达成情况分布、2020年度各大区的达成情况分布、2020年度各省份达成情况分布。 结合以上情况,总结分析入组未达成的原因、入组转好的原因,找出有参考意义的信息或行为。 (2)双维度分析 我们假定分析前提为:XX年度XX项目,查看其他维度。我们点击2020年度,且点击1112X1项目。 我们可以查看2020年度1112X1项目各月份达成情况:
145030
图5-1:双维度分析1
由上图可知该项目在2020年度计划290,入组452,超额完成162,除去4月份未达成,全年各月份均已达成,且超额完成的贡献前三分别为12,8,9月份。 我们可以查看2020年度1112X1项目各大区达成情况:
145031
图5-2:双维度分析2
由上图可知该项目在2020年度,除去华北大区未达成,其余大区均达成,且超额完成的贡献前三分别为北京大区、华南大区、东北大区。 我们可以查看2020年度1112X1项目各省份达成情况:
145032
图5-3:双维度分析3
由上图可知该项目在2020年度,除去北京市、湖北省未达成,其余省份均达成,且超额完成的贡献前三分别为河北省、湖南省、江西省。 同理可以确定2020年度XX月份,查看各项目、各大区、各省份的达成情况分布。 同理可以确定2020年度XX大区,查看各月份、各项目、各省份的达成情况分布。 此处不再赘述。 结合多个项目在各省区的达成情况,找出是否存在规律性信息,如某类病症在某个大区发病率高,受试者入组情况好;后期如果再开展类似病症的研究,就可以优先考虑在该大区多设置试验中心。 (3)三维度分析 我们假定分析前提为:XX年度XX项目XX月份,查看其他维度。我们点击2020年度,且点击1112X1项目、点击12月份。 可以查看2020年度1112项目12月份各大区达成情况:
145033
图6-1:三维度分析
由上图可知该项目在2020年度12月份,除去华北大区、云南大区未达成,其余大区均达成,且超额完成的贡献前三分别为华南大区、北京大区、华东二区。 可以查看2020年度1112X1项目12月份各省份达成情况: 由上图可知该项目在2020年度,除去北京市、重庆市、云南省、湖北省未达成,其余省份均达成,且超额完成的贡献前三分别为河北省、湖南省、江苏省、江西省。 同理可以确定2020年度XX项目XX大区,查看各月份、各省份的达成情况分布。 同理可以确定2020年度XX项目XX省区,查看各月份达成情况分布。 此处不再赘述。 2.5.2.4 地理纬度-中心 (1)从上到下,可查看XX年度XX月份XX项目,各中心达成情况分布。 比如,我们假定2020年度11月份,1112X1项目,各中心达成情况分布。
145034
图7-1:地理纬度分析1
(2)从下向上,可以查看某中心,参与了哪些项目等信息。 比如,我们查看广东省1122医院参与了哪些项目。
145035
图7-2:地理纬度分析2
由上图所示,本中心参与了8个项目,从达成视角分析,有3各项目表现较好。5个项目未达成,可进一步分析原因。也可以进一步查看XX项目XX年份各月份达成情况。比如,我们查看广东省1122医院,1133-YIII期项目,2019年度各月份达成情况。
145036
图7-3:地理纬度分析3
由上图所示:3,9,10月份未达成,其余月份均达成,且2019年此项目全年度达成。贡献度前三的月份为: 6,5,4,1月份。 其它查询方案,此处不再赘述。 从中心维度,可以查看到某些中心在某一类药物或者病症上的研究优势,为后期中心选定提供参考。 2.5.2.5 明细数据
145037
图8-1:明细数据
由上图所示,明细数据包含了看板所有涉及到的维度,以及所有的指标。并对差值做了预警,未达成使用红色向下箭头标识;达成使用绿色向上箭头标识。 2.5.3 总结 综述,此次制作的看板,涉及地理纬度(大区、省份、中心);时间维度(年份、月份);项目维度(项目)。三大维度,6个细分;按照排列组合,总共有6+15+20+15+6+1=63种查询方案。同时包含6个宏观指标,1个下拉筛选框,1个筛选产品类别(集团重大/事业部重大/待定)。 此次制作的看板结构简单,图表没有过于花哨。但是为公司临床试验运营管理层提供了更为高效且准确的数据查阅与分析平台,通过BI系统实现了从宏观至微观的数据可视化呈现。该看板可以帮助运营团队减少一定的工作压力,但仍有许多的提升空间,希望能在此次大赛中学习到更多的经验去提升团队对BI系统的掌握及制作报告的能力。 最终呈现的页面布局如下图所示,因为使用Tab组件,所以只能显示部分图片。
145071
145124
三、参赛总结
3.1 FineBI 工具
➢ 觉得比较好用的 BI 亮点功能如下:
(1)Tab 组件,能够很好地控制看板的长度。
(2)联动功能,能够很容易的实现各组件之间的数据联动。
(3)复用/复制功能,能够很大程度上节省看板设计的时间。
➢ 觉得不太人性化的地方如下:
(1)Tab 组件中,每个 Tab 页面只能容纳一个组件。
(2)筛选框只能支持一个数据集,如果同一个看板引用了多个数据集来源,不能实现筛 选框的多数据集控制。
➢ 对数据分析的价值的思考如下:
(1)数据分析应用场景:数据监测、数据预测、数据检测。
(2)数据分析四维空间:人、货、场、时间。
(3)四大结论:
维度越低、检测越容易;
高维度的检测就要向低维度去拆解;
检测的方法就是先往下拆分,再左右比对;
要判断检测结果的正确性,需要从低维度,再回到高维度。
3.2 参赛总结
认知新感悟:每张看板图表类型不需要太过复杂、太过花哨,只需要把当前问题说明白即可, 有时候柱状图,饼图,条形图等这些基础图表反而更容易受到用户的欢迎。
作品视频
临床试验与BI结缘
工业制药-临床试验与BI结缘(作品内容).pdf (1.11 M)
编辑于 2021-8-10 10:19