在数据管理领域,我们通常将数据分为:主数据、交易数据、参考数据、元数据和统计分析数据(指标), 指标是BI里面核心的概念,是一个企业数据运营关注的核心数据,一般以KPI和报表的形式体现。
从实践来看,一个企业要进行数据治理,涉及了架构、安全等诸多层面,但最迫切的是提升数据质量,其中指标质量则是重中之重,一般业务上90%以上关于数据的疑问都从指标的质疑开始,只要你从事数据相关工作,就应该深有体会。
“这个指标好像跟业务发展实际不符,快去查查”,估计这是报表取数人员听到的最多的一句话了。
下文就来谈谈如何从根本上去提升指标的数据质量,即实现指标的标准化,作为一个数据管理人员,不管你有多少能力,曾经解决了多少问题,当过多少回救火英雄,都应该从更为长远的角度来思考这个问题。
指标标准化的核心价值在于实现“书同文,车同轨”,即通过针对指标的一系列管理过程,去提升指标准确性、一致性、敏捷性及开放性。
DAMA将数据治理放到核心地位,指标的标准化就是个典型的数据治理问题,治标是容易的,治本的代价则太高,但如果要实现进阶,还是要站的高一点,多思考一下,想想是否有更好的方法,就从笔者多年前做过的指标标准化项目开始吧,分为组织保障、报表梳理、指标整合、实现方式、功能架构、可视化引擎及管理流程等七个方面。
1、组织保障
指标库这类数据管理项目,或称BI项目,一般业务部门参与的力度是不大的,这是大多BI项目实施效果不佳的一个深层次原因。
DAMA提到要实施数据治理活动,跨部门的数据治理委员会等是关键的组织,的确是这样,指标跟全公司每个单位都相关,对于其进行规范化改造当然应该获得大家的一致同意。
可惜的是,大多企业没有这个理想条件,也不会有数据治理委员会,在数据还未成为真正的实质性资产前,比如纳入财务部的资产目录,很少有企业会设立这个数据组织,因为效益不明显,因此,哪个企业都不大可能为指标出一个规范并且通令全公司贯彻执行,对于数据管理人员,指标库这个事情也许意义不小,但对于全公司意义则小了,这是现状。
在没有公司层面的组织保障前,数据管理人员或BI部门大多得靠自己,通过自己来推动事情往前走, 这是应有的态度,你不提,公司也没有任何人会提,毕竟你是最大受益者,实施指标库这个事情非常复杂,谁都没有成功的把握,秉持小步快跑,试点探索的原则是不错的。
笔者的这个指标库项目获得了分管领导的强力支持,这是项目能进行的现实组织保障,其实这类管理项目设立之初,很难让业务部门和一线人员马上认识到其价值并充分参与进来,这个沟通管理成本太高了,但无论如何,一个数据治理项目能否成功,公司的支持是第一要务,不仅仅是IT部门的事情,DAMA的很早就在《DAMA数据管理知识体系指南》明确了数据治理的组织要点,以下是DAMA的数据治理组织架构图,非常超前:
当然我觉得现实的组织演进也许如下图更合适,但道理是一样的,相关利益方需要对这个事情达成共识:
2、报表梳理
指标的主要表现形式是报表,因此第一要务就是报表梳理,公司的报表浩如烟海,因此这个项目设立之初就限制了范围,主要针对一线市场部经理、终端管理、流量管理三类核心角色,共梳理了相关的39个彩信、48份邮件通报及数据集市上的733张报表。(笔者所在公司为某运营商)
3、指标整合
各类报表及相关指标表达各不相同,梳理前应该给出一个描述指标的标准框架,包括指标大类、子类、维度、周期、归属、命名规范等等,曾经由于框架漏了一些要素导致返工现象,这个顶层设计一定要做好,以下是示例:
命名规范:业务限定词+业务名称+量值限定词+量值描述(量、收、用)
举例1:两网有效用户到达数
举例2:自建有线宽带出账用户数
下图列出了大致的梳理步骤,主要以省公司报表和彩信KPI为基础确定基准指标,各地市指标剔除个性指标后,合并到省公司的基准指标中,形成本次的最终指标范围。
全省指标共计6841个(未剔重),经过归并整合,得到基础共性指标2306个,如下图所示:
此项工作耗时巨大,以下是成果的示意:
4、实现方式
根据指标性质不同可以分为3类,即基础指标1046个、计算指标652个和通用营销类指标303个。
5、功能架构
为了支撑指标快速,标准化实现,通过增强数据管理平台来实现指标的快速开发、部署和管理,主要包括指标信息维护、指标开发、运维管理、指标质量管理等功能。
比如指标库每月需要新增超过9. 5亿行的数据,存储周期按12+1,即123亿行,以传统关系型数据库的查询能力无法支撑,这里就采用Hbase架构支撑海量指标的快速查询。
6、可视化引擎
为了支撑指标组装报表与配置报表的快速开发,使用数据可视化引擎产品,主要包括指标组装、报表开发、报表展现功能,现在的这类产品很多了,但定制化给予一个创新性项目更大的自由度。
指标组装报表工具是区别传统基于SQL配置报表的灵活度更高的报表配置方式,主要提供基于指标选择组装生成报表。
7、管理流程
指标的建设只是走完了数据治理的第一步,为了确保指标库长期可用,必须要有一套针对的指标管理机制和流程,否则建设的结束就是混乱的开始,理想的做法当然是发布一套公司级别的指标管理规范,但这个时候时机往往并不成熟,比如系统可用性到底如何,因此,我们当时就确立了一个简单原则,一条开发铁律:不重复开发,能用指标实现的不允许单独开发报表,当然这非常考验数据管理的艺术,极大依赖于团队的业务和数据能力,但有主见的数据管理团队一定要懂得如何与业务人员进行博弈,记得你才是全公司数据的管理者,而不仅仅是个开发者。
笔者在关于指标库的实现简要谈完了,但我对于大多企业搞指标库却是持悲观态度的,传统BI部门面对浩海的数据需求时,往往是没有管理原则的,因为公司对你的数据管理授权是不明确的,我们不得不以牺牲长远来满足当前,其实BI每接收一个不规范(比如胡乱的指标命名和定义)的报表需求就要承担由此带来的管理成本,而不仅仅是开发成本,这为后续数据管理的混乱埋下了祸根。
但存在的又是合理的,因为搞个指标库在开始的时候,无论是管理及运维成本都不低,关键是短期来看效益还不明显,这也许是成功案例不多的一个原因。
因此,当我们在抱怨业务指标口径一塌糊涂的时候,要记得是企业没有数据管理的原则导致了这个现象,也是你的不作为导致了这个现象,这跟公司的文化、机制及流程是息息相关的,顶层设计没解决,也许只能将就了,或者,你就要付出百倍的努力去改变或优化这个设计吧,这需要巨大的决心和毅力。
DAMA谈数据治理首当其冲谈组织设置,显然是非常睿智的,奇怪的是在知乎上关于DAMA数据治理的讨论几乎没有,这倒是值得思考的问题。
编辑于 2017-6-16 12:11
编辑于 2017-6-16 12:22
编辑于 2017-6-16 12:22
|