提问
 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,极速登录

从DAMA出发,一个指标库到底是如何炼成的?

研究猿  版主
发表于 2017-6-16 12:10 | 显示全部楼层 |取消关注该作者的回复
文 | 傅一平
原文自:微信公众号  与数据同行

在数据管理领域,我们通常将数据分为:主数据、交易数据、参考数据、元数据和统计分析数据(指标), 指标是BI里面核心的概念,是一个企业数据运营关注的核心数据,一般以KPI和报表的形式体现。

从实践来看,一个企业要进行数据治理,涉及了架构、安全等诸多层面,但最迫切的是提升数据质量,其中指标质量则是重中之重,一般业务上90%以上关于数据的疑问都从指标的质疑开始,只要你从事数据相关工作,就应该深有体会。

“这个指标好像跟业务发展实际不符,快去查查”,估计这是报表取数人员听到的最多的一句话了。

下文就来谈谈如何从根本上去提升指标的数据质量,即实现指标的标准化,作为一个数据管理人员,不管你有多少能力,曾经解决了多少问题,当过多少回救火英雄,都应该从更为长远的角度来思考这个问题。

指标标准化的核心价值在于实现“书同文,车同轨”,即通过针对指标的一系列管理过程,去提升指标准确性、一致性、敏捷性及开放性。

DAMA将数据治理放到核心地位,指标的标准化就是个典型的数据治理问题,治标是容易的,治本的代价则太高,但如果要实现进阶,还是要站的高一点,多思考一下,想想是否有更好的方法,就从笔者多年前做过的指标标准化项目开始吧,分为组织保障报表梳理指标整合实现方式功能架构可视化引擎管理流程等七个方面。

1、组织保障
指标库这类数据管理项目,或称BI项目,一般业务部门参与的力度是不大的,这是大多BI项目实施效果不佳的一个深层次原因。

DAMA提到要实施数据治理活动,跨部门的数据治理委员会等是关键的组织,的确是这样,指标跟全公司每个单位都相关,对于其进行规范化改造当然应该获得大家的一致同意。

可惜的是,大多企业没有这个理想条件,也不会有数据治理委员会,在数据还未成为真正的实质性资产前,比如纳入财务部的资产目录,很少有企业会设立这个数据组织,因为效益不明显,因此,哪个企业都不大可能为指标出一个规范并且通令全公司贯彻执行,对于数据管理人员,指标库这个事情也许意义不小,但对于全公司意义则小了,这是现状。

在没有公司层面的组织保障前,数据管理人员或BI部门大多得靠自己,通过自己来推动事情往前走, 这是应有的态度,你不提,公司也没有任何人会提,毕竟你是最大受益者,实施指标库这个事情非常复杂,谁都没有成功的把握,秉持小步快跑,试点探索的原则是不错的。

笔者的这个指标库项目获得了分管领导的强力支持,这是项目能进行的现实组织保障,其实这类管理项目设立之初,很难让业务部门和一线人员马上认识到其价值并充分参与进来,这个沟通管理成本太高了,但无论如何,一个数据治理项目能否成功,公司的支持是第一要务,不仅仅是IT部门的事情,DAMA的很早就在《DAMA数据管理知识体系指南》明确了数据治理的组织要点,以下是DAMA的数据治理组织架构图,非常超前:

1.1.jpg


当然我觉得现实的组织演进也许如下图更合适,但道理是一样的,相关利益方需要对这个事情达成共识:

1.2.jpg



2、报表梳理
指标的主要表现形式是报表,因此第一要务就是报表梳理,公司的报表浩如烟海,因此这个项目设立之初就限制了范围,主要针对一线市场部经理、终端管理、流量管理三类核心角色,共梳理了相关的39个彩信、48份邮件通报及数据集市上的733张报表。(笔者所在公司为某运营商)

1.3.jpg


1.4.jpg


3、指标整合
各类报表及相关指标表达各不相同,梳理前应该给出一个描述指标的标准框架,包括指标大类、子类、维度、周期、归属、命名规范等等,曾经由于框架漏了一些要素导致返工现象,这个顶层设计一定要做好,以下是示例:

命名规范:业务限定词+业务名称+量值限定词+量值描述(量、收、用)

举例1:两网有效用户到达数

举例2:自建有线宽带出账用户数

下图列出了大致的梳理步骤,主要以省公司报表和彩信KPI为基础确定基准指标,各地市指标剔除个性指标后,合并到省公司的基准指标中,形成本次的最终指标范围。

1.5.jpg


全省指标共计6841个(未剔重),经过归并整合,得到基础共性指标2306个,如下图所示:

1.6.jpg


此项工作耗时巨大,以下是成果的示意:

1.7.jpg


4、实现方式
根据指标性质不同可以分为3类,即基础指标1046个、计算指标652个和通用营销类指标303个。

1.8.jpg


5、功能架构
为了支撑指标快速,标准化实现,通过增强数据管理平台来实现指标的快速开发、部署和管理,主要包括指标信息维护、指标开发、运维管理、指标质量管理等功能。
比如指标库每月需要新增超过9. 5亿行的数据,存储周期按12+1,即123亿行,以传统关系型数据库的查询能力无法支撑,这里就采用Hbase架构支撑海量指标的快速查询。

1.9.jpg


6、可视化引擎
为了支撑指标组装报表与配置报表的快速开发,使用数据可视化引擎产品,主要包括指标组装、报表开发、报表展现功能,现在的这类产品很多了,但定制化给予一个创新性项目更大的自由度。

2.0.jpg


指标组装报表工具是区别传统基于SQL配置报表的灵活度更高的报表配置方式,主要提供基于指标选择组装生成报表。

2.1.jpg


7、管理流程
指标的建设只是走完了数据治理的第一步,为了确保指标库长期可用,必须要有一套针对的指标管理机制和流程,否则建设的结束就是混乱的开始,理想的做法当然是发布一套公司级别的指标管理规范,但这个时候时机往往并不成熟,比如系统可用性到底如何,因此,我们当时就确立了一个简单原则,一条开发铁律:不重复开发,能用指标实现的不允许单独开发报表,当然这非常考验数据管理的艺术,极大依赖于团队的业务和数据能力,但有主见的数据管理团队一定要懂得如何与业务人员进行博弈,记得你才是全公司数据的管理者,而不仅仅是个开发者。

2.2.jpg


笔者在关于指标库的实现简要谈完了,但我对于大多企业搞指标库却是持悲观态度的,传统BI部门面对浩海的数据需求时,往往是没有管理原则的,因为公司对你的数据管理授权是不明确的,我们不得不以牺牲长远来满足当前,其实BI每接收一个不规范(比如胡乱的指标命名和定义)的报表需求就要承担由此带来的管理成本,而不仅仅是开发成本,这为后续数据管理的混乱埋下了祸根。

但存在的又是合理的,因为搞个指标库在开始的时候,无论是管理及运维成本都不低,关键是短期来看效益还不明显,这也许是成功案例不多的一个原因。

因此,当我们在抱怨业务指标口径一塌糊涂的时候,要记得是企业没有数据管理的原则导致了这个现象,也是你的不作为导致了这个现象,这跟公司的文化、机制及流程是息息相关的,顶层设计没解决,也许只能将就了,或者,你就要付出百倍的努力去改变或优化这个设计吧,这需要巨大的决心和毅力。

DAMA谈数据治理首当其冲谈组织设置,显然是非常睿智的,奇怪的是在知乎上关于DAMA数据治理的讨论几乎没有,这倒是值得思考的问题。

论坛-微信-引导页.png 编辑于 2017-6-16 12:11  

编辑于 2017-6-16 12:22  
编辑于 2017-6-16 12:22  
此帖共有 101 位番薯登录后查看
回复

使用道具 举报

传说哥 社区微信达人实名认证 番薯互助团队 帆软员工 管理员
发表于 2017-6-16 14:03 | 显示全部楼层 |取消关注该作者的回复
哈哈,此文蛮好的,对于指标库建设流程讲得很清晰,可惜我不是干这个的,不然还真想实践一番呢。
  • 评论

回复 支持 反对

使用道具 举报

jiasuhang  初学乍练(Lv1)
发表于 2017-7-5 08:34 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

tks  渐入佳境(Lv2)
发表于 2017-7-6 09:56 | 显示全部楼层 |取消关注该作者的回复
高质量的文章啊。
  • 评论

回复 支持 反对

使用道具 举报

研究猿  版主
发表于 2017-7-6 10:52 | 显示全部楼层 |取消关注该作者的回复

  • 评论

回复 支持 反对

使用道具 举报

caosai 实名认证 渐入佳境(Lv2)
发表于 2017-7-7 16:09 | 显示全部楼层 |取消关注该作者的回复
牛哄哄,佩服
  • 评论

回复 支持 反对

使用道具 举报

兜兜里有棵兰花 社区微信达人实名认证 渐入佳境(Lv2)
发表于 2018-8-17 09:06 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

wangfang 社区微信达人 渐入佳境(Lv2)
发表于 2018-10-11 10:27 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

leibo 社区微信达人实名认证 初学乍练(Lv1)
发表于 2018-10-13 16:49 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册  

本版积分规则

what a fine day
任务进行中

Copyright © 帆软|联系帆软| 联系管理员@兔子酱|免责声明|手机版|帆软社区 ( 苏ICP备14031611号-3 )

GMT+8, 2018-10-20 08:19 , Processed in 0.512616 second(s), 132 queries , Gzip On.

返回顶部 返回列表