【2022BI数据分析大赛】血必净用药的安全性和有效性分析
一、选手简介
1.1 选手介绍
(1)团队名称:菜鸟有话说
(2)团队组长:
钟永康(XXX股份有限公司),从业于医药数据分析业务工作,负责数据分析、业务方案和汇报材料制作等工作。擅长使用SQL进行数据查询和数据分析,可使用Python、SPSS进行数据分析和建模工作,熟练掌握EXCEL、PowerBI等可视化工具对大量医患用药数据进行分析展示。
(3)团队成员:
李明轩(广东工业大学研究生),从事于人工智能领域,平常接触大数据分析、数据分析工具等内容,熟悉SQL、Python等数据分析工具。
(4)因何结缘:团队成员是大学同学,因为帆软的可视化比赛聚集在一起,成员各有所长,在本次比赛中分工合作,发挥各自优势,共同完成本项作品。
(5)团队标语:勇敢踏出第一步,开始即胜利!
1.2 参赛初衷
(1)目前医药行业普遍使用帆软作为报表工具,团队成员的日常工作中都涉及大数据分析,希望通过更先进的工具直观展示数据关系,挖掘数据价值。同时,工作中需要向领导、客户进行汇报,直观的可视化展示会更具有冲击力,表达力也更明显。
(2)通过比赛可以学习大量视频教程、论坛经验和专家指导,希望通过亲生经历和实践提升工具技能,提升数据分析思路和工作效率。所以希望通过大赛学习更多目前主流的报表分析软件FineBI,也为FineReport的使用奠定基础;
(3)团队成员都对数据可视化分析具有浓厚的兴趣,EXCEL可应用于日常的简单数据可视化,但帆软在多维度、大数据的展示方面更有优势;
(4)大赛奖励非常具有吸引力,帆软专家团队项目指导服务价值高,CPDA证书是非常具有权威和公信力的数据分析师考试。
二、作品介绍
2.1 背景介绍
2.1.1 业务背景
(1)随着医疗科技水平的不断进步,人民的生活质量得到大幅提高,人类平均寿命也得以不断延长,使得全球的人口总量越来越大,与此同时,人口基数大使得药品的使用量保持年均4%-5%之间的增长,但需要注意的是,药品安全也越来越受到人们的重视。而近年来,全国药品不良反应事件的发生次数逐年递增,这极大刺激了群众对于安全用药的愿望。但传统的药品不良反应监测工作不够准确有效,加上不良反应数据量的不断增多,传统的药品监测分析工作渐渐不能满足现实世界需要,急迫需要更有针对性和高效率的解决办法。
(2)近年来,高速发展的互联网技术,医院工作信息化程度不断提高,积累了大量医疗数据,这些医疗数据分布于医院众多的信息系统中,形成信息孤岛,缺乏有效利用。而目前,我国在充分借鉴国外药品不良反应监督的经验,并结合自身的现有条件和特点,找到了针对ADR数据进行研究分析的最优途径。通过多家医院的多中心合作,构建以ADR病例为导向,各机构同步方案并行的科研方式,通过由国家药监局监管的中国医院药物警戒系统,我们使用药品上市后再研究的方法,对目标ADR病例数据进行回顾性或前瞻性研究,从海量数据中提取出对临床意义重大的信息,推动我国医疗技术的发展。
2.1.2 需求背景
(1)从医生临床决策方面来看,由于医院信息化系统的建设,积累了海量的医疗用药数据,尤其是药品不良反应数据,与临床用药决策密切相关,深入挖掘现有的已经发现的药品不良反应数据的价值,能够辅助医院做出更为准确有效的医学判断。
(2)从药师科研任务方面来看,由于医院内部工作人员的晋升与科研成果相绑定,因此药师想要在未来获得更好的发展,就需要参与到一些科研项目中,做出一些科研成果,而大部分的科研任务中,都必然涉及药品数据分析这一块。
(3)从制药企业方面来看,药品不良反应案例的数量多少,从安全性角度来说可以评价一款药品的好坏,因此会直接直接关系到药企利润等等,例如药品品质影响销量、影响医保谈价的筹码等等。因此做好药品不良反应数据的统计分析能够帮助药企改善不足之处,如果药品的分析结果优秀,也会为药企的药品增光添彩,在未来的药品发展给与极大的帮助。
(4)完成血必净药品研究项目的结题工作,结合最新比较热门的脓毒症治疗方案为例,采用真实世界对照组的研究方法,对血必净药品的安全性和有效性做医学评价分析,
2.2 数据来源
◎●数据采集:在庞大的医院系统数据库中,制定针对脓毒症患者人群的检索方案,整合医院的HIS、LIS、PASS系统数据,根据检索方案导出所有相关数据,最终形成下面几张数据表。
(1)使用企业数据:
数据1-病人基础信息表
数据2-实验室检查表
数据3-病人体征与检验表
数据4-实验室检查异常情况表
(注:企业数据银行内提供数据,已将病人姓名、身份证脱敏)
(2)使用自选数据:
数据5-实验室检查表-血必净组
数据6-实验室检查表-常规组
(注:由于数据分析需要,自选数据分了两组,做对照试验)
2.3 分析思路
1. 分析目标:研究在脓毒症患者人群中,使用血必净药品后的治疗效果如何,尝试根据药品的不良反应数据,从药品的有效性和安全性出发,对血必净药品做出一个基于真实世界临床数据的现实评价。
2. 分析方法:采取结构化分析法,从总体情况到具体对照组进行一步一步透视,最后得出论点,挖掘数据价值,为当下的临床用药决策提供建议。
3. 分析思路:
◎●结构化基础分析:根据病人基础信息表、实验室检查表等数据表,重点考虑了脓毒症患者的年龄、性别、并发症等多个字段,将字段分为维度和指标字段,大概评估脓毒症患者的年龄分布、性别占比等等。
◎●有效性评价指标
结合该院的单病种病案记录诊断以及对血必净在治疗脓毒症患者临床疗效的文献研究,对比分析自选数据中的2组不同治疗方法下严重烧伤患者的脓毒症患者、并发症情况、住院时间及死亡率,分析其治疗的有效性。
(1)一般指标:主治医生在患者病程记录中的诊断、生命体征异常、白细胞增高等重要检验检查数据或疾病等。如:年龄、性别、吸烟史、过敏史、既往史、合并症等资料。
(2)治疗与预后:病人各器官功能改善、总留院时间、并发症、自动出院、院内死亡等情况。
①自动出院率(预后差/可预知死亡):自动出院人数占总住院人数的比率;
②院内死亡率:纳入分析的住院患者院内死亡人数占总住院人数的比率;
③并发症发生率:休克、急性呼吸衰竭、深静脉血栓形成、多器官功能障碍综合征、酸中毒、肾脓肿、心功能不全等并发症发生率;
本文的脓毒症并发症信息,主要参照病案首页的出院诊断,其并发症诊断以病历内检查单、检验单报告结果,再结合病程记录中的诊断记录为参考标准,统计录入各并发症发生记录,“无”=0,“有”=1。
④器官功能监测指标:肝肾及心肌酶谱监测指标、凝血四项等监测指标。凝血四项包括凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、凝血酶时间(TT)、纤维蛋白原(FIB)
◎●安全性评价指标
(1)临床安全性评价及记录
通过患者自发报告与主治医生对用药患者直接观察相结合的方式来监测用药过程中所出现的不良反应或不良事件(排除患者自身疾病原因),从而更加全面地评价药物的安全性。
在患者用药期间,通过患者的自发报告以及主治医生的直接观察,如若出现不良反应或不良事件,及时记录不良反应或不良事件的发生时间、临床表现、处理方法、转归时间及其与原患疾病的关系等,本文只对出现ADE/ADR的发生处理情况进行描述记录,不干预临床医生对ADE/ADR的诊疗。
(2)重要指标的安全性评价
本文选择基于CHPS的真实世界数据库作为安全性评价重要指标的信息来源,利用CHPS平台所采集到的G医院血必净在脓毒症患者中的重要生化检查指标,作为安全性实验室评价指标。这些检查指标包括①呼吸功能生物标志物,如动脉氧分压(PaO2)、吸入氧浓度(FiO2)、氧合指数(PaO2/FiO2)等;②血液学检查,如白细胞(WBC)、血小板(PLT)、血红蛋白(HB)、中心粒细胞(N)等;③凝血功能生物标志物,如凝血酶时间(TT)、凝血酶原时间(PT)、等;④肝功能指标,如谷丙转氨酶(ALT)、总胆红素(TBIL)等;⑤心功能指标,如乳酸脱氢酶(LDH)、肌酸激酶同工酶(CK-MD)等;⑥肾功能指标,如肌酐(CR)、尿素氮(BUN)等。
(3)实验室指标异常率的比较
根据停药一周(药物经体内代谢)的实验室检查的各项指标值的异常(高于或低于正常值范围)情况的发生,利用卡方检验分别计算停药一周后血必净组与常规组同期各实验室检查指标值的异常情况的比较。
2.4 数据处理
(1)数据清洗。因为在系统中就完成了脱敏工作,并且能够有针对性地导出目标字段,所在把数据从系统导出后,只需要对其中的空值做处理,可以通过人工补充或者删除的方式来处理。
(2)字段定义。字段定义也是比较常做的操作,例如把原字段里面值(是,否),转换为(0,1)的值,也可以把年龄划分为及部分,方便后面的统计分析。
(3)新增字段。根据上文的数据指标体系,确定明确的数据指标及相关维度。例如药品不良反应发生率,就需要计算出脓毒症患者中使用了血必净药品的患者群中,发生药品不良反应的数量,之后做一个简单的比率运算。同样的还有实验室指标异常发生率等等。
2.5 可视化报告
2.5.1 治疗前脓毒症患者基线资料分布
(1)脓毒症患者年龄分布
基于广东省某三甲G医院2018年4月至2019年6月的电子医疗病例数据,符合本研究入排标准的患者共有133例,可以看到64周岁以上老年人占总入组病例的78.20%,由此可见,脓毒症患者具有显著老年化特点,提示这类人群可能具有更高的脓毒症患病风险。
(2)性别分布
从图表可以看出,在脓毒症患者人群中,男性患者57(42.86%)例,女性患者76(57.14%)例。区别不是特别大,女性稍微多一些。
(3)入院科室分布
从脓毒症人群的入院科室分布图可以明显看到,急诊室的比例占到了60.9%,这是一个很突出的点,推测脓毒症患者一般会在病情比较危重的时候才选择入院,而这对于治疗效果来说,可以通过钻取预后情况来判断,最后推断出,脓毒症患者应该及时干预。
(4)血必净组与常规组
从统计图可以知道,常规组中没有使用血必净药品的记录数有74个,而用药了血必净的有59人。
2.5.2 治疗前两组患者基线资料比较
(1)常规组
(2)血必净组
(3)总结
明天可以看见,使用血必净药品的情况中,更多是发生在急诊室中,高达88%,而常规的只有39%,两组在性别和年龄方面没有特别明显的差异。
2.5.3 有效性与安全性研究
(1)两组的预后情况比较
从分布图可以看出,在血必净组中,预后情况为良好的个例,占组内的一半左右,而常规组,没有用药的预后情况占比非常高,从侧面说明了血必净组中用药后的有效性。
(2)两组的临床结局比较
常规组
血必净组
总结:从上面两个统计图可以看出,在用药后院内死亡人数比较少,占总体的6.78%,甚至比常规组的效果还要好,说明了用药的安全性是可以保证的。
三、参赛总结
3.1 FineBI工具
FineBI是一款比较全面的工具,对于企业的商业化数据分析,做到了非常好的可视化效果,软件的使用非常方便直接,功能强大,同时配备的学习文档简直如虎添翼,能够大大提高学习的效率,能够使得想我这样的小白快速上手,并且能够独立完成一些简单的数据分析工作。
不过比较可惜的是,软件本身并没有太多的相关因素分析功能,对于更深层次的关联因素分析、预测推断分析可能捉襟见肘。
➢ 觉得不太人性化的地方如下:
(1)关于组件编辑面板的维度和指标可以自定义吗,因为经过处理的表格,尤其已经把字符串属性转换为数字属性了,那么维度这里就没有显示出来。
(2)对于分类比较的应用并不多,或者没有这么直接。
➢ 对数据分析的价值的思考如下:
(1)数据分析应用场景:数据监测、数据预测、数据检测。
(2)数据分析四维空间:人、货、场、时间。
(3)四大结论:
维度越低、检测越容易;
高维度的检测就要向低维度去拆解;
检测的方法就是先往下拆分,再左右比对;
要判断检测结果的正确性,需要从低维度,再回到高维度。
3.2 参赛总结
我这边的数据还是比较多的,而且可以应用很多有趣的分析,只是由于个人工作比较多,所以花在比赛上的时间很少,这不得不说是一个很大的遗憾,如果能够全程参与这么有趣有意思的比赛,一定会收获满满,不知道下一次还能不能继续参加,我一定要完善好作品,做好更全面更完善的分析结果。FineBI软件还有很多值得我不断探索学习的地方,希望能够做到得心应手的水平。