引言
银行是经营风险的企业,不管在什么时候,数据质量都是银行的生存命脉。特别是近几年,监管单位频频下发文件要求各金融机构进行数据治理,提高数据质量。比如2011年,银监会就下发了《银行监管统计数据质量管理良好标准》,要求银行业金融机构自评行内数据质量并由银监检查,每三年全面覆盖所有机构。2018年,银保监会再次下发更加严格的《银行业金融机构数据治理指引》文件替换《良好标准》,明确要求银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系,法定代表人或主要负责人对监管数据质量承担最终责任。这是银保监会第一次将数据质量责任落到了行领导级别的头上,在业内掀起了一轮数据治理讨论的热潮。
但是讨论归讨论,数据质量问题在很多银行还是迟迟得不到有效解决。最近,我们考察了江苏、云南、湖南等地银行的数据质量情况,总结了他们存在的几个典型的数据质量问题: - 客户数据大量缺失,不能满足客户细分和客户特征分析等应用的需求。
- 中间业务收益不能和客户、产品挂钩,不能做客户及产品贡献度分析。
- 账务数据总分不符,影响数据分析的准确性。
这些具体的问题,看似稀松平常,却是多年来困扰很多银行数据分析人员的魔咒。那问题到底出在哪里呢?其实这些问题,归根究底都是数据质量的问题。 银行数据治理
当前有些银行将数据治理提上了日程,开展了持续有效的治理工作,在业务发展模式上更加注重数据的管理提升和内部挖掘潜力,并且有已经取得了一定的成就,比如基本统一了全行编码规则,初步实现了客户和产品的主数据维护等。但是中国银行业金融机构多达4000多家,绝大部分银行都还没有开始数据治理的工作,而且大部分做了数据治理的银行效果也不是很显著。中国中小银行互联网金融联盟联合埃森哲等发布的《中小银行金融科技发展研究报告(2019)》显示,中小银行的数据治理基本处于萌芽期,达91%的中小银行尚未开展有效的数据治理工作。 中国中小银行数据治理现状
我们实际调研发现,很多数中小银行对于数据治理还没有一个系统的理解,即使有了一些数据治理的动作,也是就具体的数据问题单独解决,比如发现数据缺失就临时补录、有错误数据再手工调整等,大量的数据还沉淀在excel等文件里面。对于这些数据质量的问题并没有统一进行标准化管理,而且没有形成常规的治理机制。 初级数据治理的弊端
要解决上述数据治理中存在的问题,切实提高数据质量,核心在于要建立一套完善的数据质量管理体系,串起数据治理的各个流程,确保数据标准能落地、质量检核体系化、清洗整改有规则、评价机制指标化。虽然《指引》从数据治理架构、数据管理、数据质量控制、数据价值实现等方面给出了方法论指导,但是很多的内容的可操作性并不强,而且比较务虚,落地的时候可能会因为流程太复杂而建成空中楼阁。从实际数据治理的务实措施出发,我们认为建立数据质量管理体系是数据治理工作的核心内容。
数据质量管理体系 综合多家银行的成功经验,我们把数据质量管理体系定义为四个主要流程:数据标准(standard)、检核体系(checklist)、整改规则(improvement)、评价机制(evaluation),我们称之为SCIE流程。
数据标准一般会由银行的数据治理小组下设的数据标准委员会制定,比如常熟农商行由“数据资产委员会”统一制定全行的一系列数据标准,各个项目群都需要参考标准来实施,保障“车同轨、书同文、行同伦”。数据标准管理体系是数据质量管理的铁轨,只有标准统一并且规范管理,才能使数据质量管理 “有法可依”。
检核体系是在归纳数据质量问题时的框架。数据质量问题千千万,但是所属的类型是有限的,检核体系给出了标准的6大类12小类数据质量问题,帮助全方位发现数据质量问题。每个质量问题从不同的维度出发需要不同的检核方法和整改规则,比如客户身份证号可能从准确性、完整性、有效性等方面来归纳问题,并制定相应的整改规则。
整改规则是整个数据质量管理体系的操作中心,前面制定的数据标准和检核体系,都是为了发现问题和提供解决方法,整改规则是通过系统或者人工的方式把标准落地,并且把检核到的数据进行清洗、整合,切实改善数据质量。
评价机制是为了落实责任到位,因为我们发现,往往在数据治理这种牵涉到跨部门的项目中,非常容易出现责任分散、考核主观、动力不足的问题。评价机制采用自动化数据质量统计手段,实现数据质量按部门、按条线、按主题、按规则等维度进行多维评价,考核直接和绩效挂钩,充分调动相关部门和人员的积极性。
纵观调研的几家数据治理成果比较好的银行,比如江苏银行、红塔银行、株洲农商行等,他们都根据行内现状搭建了自己的一套数据质量管理工作流程,并成为数据治理的核心工作。下面我们将结合实际项目,详细阐述数据质量管理体系的SCIE流程,以及其工作内容与方法论。
在大多数银行里面,数据治理的工作通常是基于数据仓库的。“数据仓库就是面向主题的、集成的、稳定的、时变的数据集合,用以支持经营管理中的决策制定”,这是数据仓库的定义。集成就意味着需要对多个系统的数据进行整合,这个过程中有两个至关重要的工作:数据标准和数据模型。这两项工作一个负责给数据下定义,另一个负责描述描绘数据关系。 一般来说,我们把数据标准分为两类:基础类数据标准和指标类数据标准。
基础类数据标准是对实体的属性定义标准,比如姓名、身份证号、归属地等,一般来说可以参考国家标准和行业标准。举个最常见的例子,银行的客户信息一般在核心和信贷系统中都有一套,业务分析时如果需要一个整合的客户数据,那异构的客户数据该怎么整合?这里就需要建立一个全行通用的《客户数据标准》来规范客户数据整合工作,确保兼容各个系统的同时,还能做好数据映射。
银行客户分类标准示例
上图所示的是常熟农商行的客户分类标准,核心系统和信贷系统的客户数据,都可以根据此分类标准对客户数据进行归纳和整理,并且根据分类设计相应的客户数据模型。下图所示是一个简化的当事人(客户、员工、机构)主题逻辑模型,是根据行内的分类标准进行客户化设计之后得到的。 当事人主题逻辑模型设计示例
具体到客户信息表里面的字段,比如客户的名称、证件等,可以优先参考国家标准或者行业标准,没有国标和行标的字段,再自定义字段标准,包括命名标准和存储标准等。
客户信息标准文档示例 指标类数据标准是指根据基础数据计算和加工之后得到的数据的标准,比如存款余额、开户数等,指标类数据一般会分为基础指标和计算指标。指标类数据标准比较个性化,一般来说各个银行都会有差异,也没有国家标准作为参考,但是应该作为重点进行管理。因为业务分析数据的最终结果,其实是为了得到指标的值,基础类数据标准能够让业务得到标准的维度,指标类数据标准让业务能够得到准确口径的指标值。在工作经常会碰到与业务或者运营人员沟通需求的时候,自己理解和需求得出的数据不一致。这一部分是由于对产品对业务理解的不够透彻另一方面也存在数据源口径不一致的问题,因此在做数据治理或者数据仓库标准化的实时对指标换句话说数据口径的统一显得明显重要。
相信大家肯定遇到科技人员取数时需要反复跟业务沟通需求的情况,这个一方面是由于科技对产品和业务理解不够透彻,另一方面则是由于指标类数据标准的缺失。完整的指标标准至少包括如下几项要素:
Ø 指标类型,数量指标/质量指标,外部监管指标、信息披露指标及内部管理指标; Ø 指标名称,概要说明指标的含义或内容; Ø 业务定义,指标数据标准的原理性解释; Ø 计算规则,用于描述生成加工规则; Ø 统计口径,用于描述统计指标的时间或空间界限; Ø 计量单位,比如用于计量金额的单位“元”、“美元”、“户数”等; Ø 指标数值,用于描述经过计算规则加工后得到的具体数值;
指标类数据标准文档示例 在梳理全行的数据质量问题时,很多银行往往都是业务自己提出问题,科技来整理相应问题的解决方案。但是真实的调研后会发现,其实业务自己能够集中发现的问题其实并不多,也不全面,我们需要更加明察秋毫的“探测器”。几乎每个银行的数据问题整理下来都会不一样,检核规则也会不一样。但是从体系上讲,就是6个大类、12个小类。大类维度有完整性、唯一性、有效性、一致性、准确性、及时性;小类维度分为非空约束、惟一值约束、代码值域约束、长度约束、内容规范约束、取值范围约束、标志取值约束、存在一致性约束、等值一致性约束、逻辑一致性约束、取值准确性约束、及时性约束。
数据质量检核体系分类 用来检核数据的完整程度。完整性就是我们日常所说的“数据要全”。在数据采集和数据流转的过程中要把需要的数据记录完整。所有其他规则维度都以完整性准则内容为基础。 用来描述数据是否存在重复记录。比如个人借据信息表中,借据号作为主键,不应重复。再比如个人客户信息表中,证件类型+证件号码+姓名相同,则其客户编号应唯一。 用来描述数据是否满足用户定义的条件或在一定的域值范围内。通常从长度、取值范围、内容规范方面进行约束。比如存款类型不能出现存款产品表之外的名称,再比如身份证号不能是18位之外的位数。 用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。比如“进出口经营权许可证号”长度为13位,后9位应与“组织机构代码”一致。 准确性要求不仅数据的取值范围和内容规范满足有效性的要求,其值也是客观真实世界的数据。由此可见,有效的数据未必是准确的,反之成立。准确性通常需要业务人员或其他当事人手工核查,没办法通过技术手段实现全自动化检核。但是大数据时代,还是可以通过一些手段达到部分自动检核的。比如客户居住地址变化了我们没办法及时更新,但是通过其手机银行登录地址和数据库中地址的对比分析,可以帮助进行数据检核。 及时性要求数据能及时反映实际业务时点的状态,部分需要业务人员或其他当事人手工核查。比如发生理财业务时,交易在理财系统是成功状态,但是该笔交易在核心却没有入账。每一条数据,都可能存在多个维度的质量问题,需要建立多条整改规则,这也是为什么要建立完善的检核体系的原因。它可以帮助我们全面的诊断数据在各方面存在的问题,而不是凭经验或者感觉来梳理。 根据数据质量检核体系梳理出来的问题,我们需要制定相应的整改规则。数据质量整改规则是所有最小、最基本的规则集合,是某个具体的数据质量问题的治理措施,如果说检核规则是为了发现问题,那整改规则就是解决问题。
我们将整改规则分为业务规则和技术规则两类,技术规则依赖于业务规则来进行制定,业务规则通过技术规则来贯彻执行。数据质量业务规则,是指数据在业务层面是否符合全行已经达成共识的数据质量要求,通常每个数据标准项都有其对应的数据质量业务规则。数据质量技术规则,是指数据质量业务规则的实例化,是其在系统中的应用,用于对特定的数据集进行数据质量监控、检查、评估等。数据质量技术规则和具体系统表、字段密切相关。
数据质量业务规则和技术规则关系
在调研各个业务系统时,首先根据检核体系排查数据问题,然后制定相应的业务规则,最后结合特定的系统和字段制定对应的技术规则,技术规则最终需要落地到工具里面。在数据治理的过程需要很多定义清晰的整改标准,比如客户数据治理里面,身份证号不能为空,并且只能是18位,除最后一位外不能出现数字之外的字符等规则都是事先定义好,并且一条一条进行检核,一旦发现有不合格的,即是需要整改的数据。造成数据质量的原因比较多,整改的规则也就比较多,比如云南红塔银行现在全行的检核规则库达到了412项,形成了基础类数据标准640个,指标类数据标准6065条。
红塔银行检核和整改流程示意图
一个业务规则有可能对应多个技术规则,每个技术规则都是跟相应系统、表和字段相关。形成的各项业务规则和技术规则都需要按照数据质量检核体系进行分类管理,并且形成方案,落地到数据质量平台工具中去,通过工具实现自动化检核和整改工作。部分不能实现完全自动化的数据质量问题,可以由系统检核和评估出疑似质量问题的数据,然后交由专业的数据整改小组成员或者责任部门负责手动整改。
数据质量整改规则的示例
在数据治理的过程中,不单单包含存量数据的治理,还有新增系统和数据的规范。这部分也是结合数据标准、检核体系和整改规则来保证新增数据的高质量的。下图是新系统建设过程和数据质量管理体系的流程结合的示意图。
新建系统和数据质量管理流程结合示意图 数据经过检核和整改之后,肯定会逐步的得到改善。但是为了长期跟踪和推动各系统数据质量的持续提升,并且为度量各系统、各部门的质量满足度提供依据,我们应该根据数据质量检核体系,进一步明确相对应的评估模型和指标算法。
评估指标算法分为规则级的评估指标算法和体系级的评估指标算法。规则级评估指标算法是对具体规则进行评估计算,是评估的最小单元,也是其他评估指标算法的依据;体系级评估指标算法是对预先定义的评估体系进行的综合评估,在实践中按项目或专题组织(如总分检核、代码检核、客户数据检核),可能包含一个或多个检核规则,按照分析评估的目标由系统管理员自由定义。由评估算法得出的指标可以作为汇报材料或者进度考核数据,经过统计分析后形成数据质量报告,让各级部门和相关人员及时了解数据治理现状和问题,是整个数据质量管理体系的“指挥棒”。由于根据不同的整改规则可以设置字段级的评估指标算法,所以规则级的评估算法其实是非常多的。这里我们只根据检核体系列出了六个维度的评估指标算法。
检核体系评估指标算法公式
其中的及时性指标值,如果是延迟时间大于窗口时间的话,那直接就等于零了,因为那时数据是没有质量可言的,如果是跑批数据的话意味着需要重跑。把各类评估指标值以评分卡的形式统计系统、主题、部门等的得分情况,进行多角度精细化的数据质量评估,促进数据质量有效提升。
数据质量评分卡示例
根据具体的整改规则还可以设置更加明细的指标算法,比如客户九要素缺失率、客户身份证号长度不合规率等。比如常熟农商行的运营管理部的业务人员,通过FineBI对数仓里面的客户信息进行分析,分别计算分析客户九要素缺失率和身份信息错误率等数据,以期更好的服务运营部门。在流程上,他们做到了主动发现数据质量问题、反馈问题,切实的提高了数据质量,未来的数据质量管理体系肯定也是朝着业务主动反馈、整改的“自治模式”发展的。
除了进行数据质量的评价,银行应该根据《指引》的要求,设置数据质量考核制度,将数据质量管理体系的各项规则和评价指标挂钩到个人或部门绩效考核,真正发挥“指挥棒”的作用。只有强有力的评价考核机制才能让数据质量管理体系形成闭环,并且将数据治理这项长期艰苦的工作持续运营下去。
总结 银行数据治理已经成为每家银行的必经之路,而且任重而道远。本文从银行数据治理的现状出发,提出了以SCIE流程为核心的数据质量管理体系,来解决数据治理高度务虚、难以落地的问题。然后我们围绕数据质量管理体系的SCIE流程,详细阐述了数据标准、检核体系、整改规则、评价机制等四个流程的工作内容和方法论。数据标准保障“车同轨、书同文、行同伦”;检核体系帮助全方位发现数据质量问题;整改规则是把检核的数据进行清洗、整合,切实改善数据质量;评价机制将数据质量进行量化并挂钩绩效,让数据质量管理体系实现闭环。
以SCIE流程为核心的数据质量管理体系是综合多家银行的经验总结而成,并且在实际项目中反复验证的方法论体系,一改常规数据治理纷繁复杂、无法落地的体系架构,让银行能够实实在在的找到一条简单有效、可行性高的数据治理主干道。
|