电力:发电公司如何构建自己的数据仓库?

学无止境,精益求精
撰文|帆软数据应用研究院 Calcifer

引言

在之前的文章中我们论述到构建以在线经营管理为核心的数据决策平台的重要性,并给出了发电公司经营管理数据决策平台的总体框架以及构建思路。每个企业想提高竞争力,都要从管理的细微处做起,而研究数据价值,是其中非常重要一点。

要研究数据价值,就必须要先做好数据的治理、管理工作,因为数据挖掘、OLAP等数据分析技术都是建立在数据仓库的基础上的。本文结合帆软在电力行业数据应用领域的多年合作经验,就从电厂的角度出发,讨论下电力企业的数仓价值及其搭建思路,以作参考。

关键词:数据仓库、大数据、可视化、发电公司;

一、发电公司数仓的价值

1、先看一个场景

某发电集团的A电厂厂长月中突然想要了解近几个月的环保节能情况,却被告知该环保节能月报需要三天以上才能制作出来。运营部反映说,该报告既需要从省环保厅网站可以获取部分数据,还需要从电厂环保word报告、值长台等其它各部门汇报上来的excel表格中获取数据进行整合,而各部门整理汇报数据比较慢,无法迅速完成。A电厂厂长为此很头疼,运营部、信息部也很无奈。

2、场景问题解析

上述问题出现的根源是缺乏数据管理机制和保障。导致数据质量参差不齐,基础数据分散、不统一、数据不一致。

以目前五大发电集团公司的信息系统现状为例,大多数集团公司所属电厂的现有信息系统千差万别,各电厂内部原有财务信息化系统、生产管理系统、ERP系统等相对独立,内部信息系统之间缺乏统一的平台对数据进行关联、整合及联通,无法从统一视角去衡量全企业业务概貌,难以完全释放数据的真正价值,呈现出“数据一大堆,现用现找谁”的局面。

而数仓的一大作用就是数据的整合与治理,因此数仓的搭建可以很好的解决这一问题。

3、数据仓库的价值

数仓最大的价值是提供给决策者一种全新的方式,从宏观或微观的角度来观察多年累积的数据,从而使决策者可以迅速的掌握自己企业的经营运作状况、运营成本、发展趋势等对企业发展和决策有重要意义的信息,以利于做出更加及时、准确、科学的决策。

二、发电公司数仓的概念及参考架构

1、 数仓的基本概念

数据仓库是一个面向主题的、集成的、相对稳定性的、反映历史变化的数据集合。它是一种新的数据处理体系结构,对企业内部各部门业务数据进行统一和综合的中央数据仓库,为企业决策支持系统和行政信息系统提供所需的信息。

2、 发电公司数仓的参考架构

图片1.png


3、 ODS和DDS简述

1)ODS:操作型数据存储(Operational Data Store)模块,是整个数仓的主要数据存储地之一。包含企业的所有业务数据,可以分布建设。是一个集成和集中化的数据存储,由多个主题的企业级数据组成,包括底层的、细粒度的、需要长期保存的数据,但是查询效率低。一句话说,“ODS是用企业级的实体关系(ER)模型来存储数据的中央共享业务数据总库”。

2)DDS: 多维数据存储(Dimension Data Store)模块,是专门为快速查询设计的,是由ODS中原始数据衍生出来的数据,数据经常被查询。DDS采用分主题的多维关系模型(星型、雪花模型等)来进行数据的存储,为数据的深度分析提供支持,为OLAP提供数据。

图片2.png



三、决策发电公司数仓的建设思路

数仓的实施是一个庞大而长期的过程,要成功实施一个数据仓库项目,既需要人力、财力的投入,还需要具有经验的实施人员使用规范的实施方法。

对于大型电厂、发电集团是确实有构建数仓的必要性。但是从电厂角度而言,考虑成本、时间等多方面的原因,中小型电厂是没有必要一次性构建完整数仓的,最佳策略是依据业务主题构建相应的数据集市满足当前的诉求,同时逐步规划完整数仓的建设。

电力企业数仓开发的三个基本原则:

1、 周期性开发

数据仓库的系统开发是一个动态反馈启发式的循环过程。数仓开发应用周期可分为三个阶段:数据仓库规划分析、数据仓库的设计实施、数据仓库的使用。因为,一般情况下,数仓不可能在一个循环过程中完成。所以,这三个阶段不断循环、完善、提高,螺旋式周期性开发,形成一个循环,不断往复的进行。

图片3.png


2、 数据驱动

数据仓库的开发是从数据出发的,从存在于业务处理系统环境中的数据出发进行构建,要尽可能利用已有数据、代码等,而不是全部从头开始做。这就要在进行数仓设计前,首先识别原有的数据库系统中已经有什么数据。

3、 联合使用自顶向下和自底向上的策略

首先自下而上从多个业务角度构建相应的数据集市,将各个业务模块内部的数据整合,初步梳理出相应的问题,在解决部分问题时要兼顾考虑全局,跨业务模块的数据整合。

数据仓库的开发策略有三种:自顶向下、自底向上、俩种联合使用。

1)自定向下策略:
在实际应用中较为困难。因为需要在一开始企业决策层和管理人员完全知道数据仓库使用的预定目标,并明确数据仓库要在哪些决策中发挥作用。而在数据仓库的开发初期往往不能明确了解数据仓库用户的使用需求,容易导致数仓失去其应有的价值。

2)自下而上策略:
针对特定的管理决策问题进行开发,适合在数据仓库的应用目标并不是很明确以及数据仓库对决策过程影响不是很明确时使用。其能以较小的投入获得较高的数据仓库应用效益,容易取得成效。

3)俩种策略的联合使用,则能满足既能够快速的完成数仓的开发应用,同时仍可以建立具有长远价值的数据仓库方案。
遵从上述的原则,再结合给出的参考架构,依据维度建模的理念进行具体的开发设计,相信电力企业推进数仓的开发工作将会更加的顺利。

结语

作为电力的基础组成单位,发电厂是整个发电集团基础数据库最大的数据源,其数据量大、数据种类多、分布专业范围广、对其规范化分类没有现行的行业标准,因此凌乱无序的数据会形成数据垃圾。 只有利用大数据工具对数据进行有效的采集、衔接、规范、分类和分析,才能为电厂和集团公司管理者提供有效数据,为电厂从“信息化电厂”到“数字化电厂”最终向“智能化电厂”转变提供有效的基础。

构建面向电厂的数据仓库能有效的协助电厂管理者们从庞大的数据环境中解脱出来,并提供给管理者们有关运行、生产、管理的智能化辅助决策服务,更高效的发挥数据的价值。

关于发电企业数据治理的工作,只是电力企业在数据化过程中面临的问题之一。帆软,在电力行业深耕多年,已经积累发电、输配电领域合作客户80多家,基于丰富的合作经验以及客户基础,我们将于2018年11月29日至12月1日举行电力行业数据化研讨峰会,届时将有发电电厂、光伏企业等为大家分享电力企业数据化建设经验,并就智能电网、数字电厂等行业关注的热门话题进行深入研讨,对大会议题感兴趣的电力行业同仁们,欢迎点击下方链接,了解会议详情。


发表于 2019-2-2 00:12:02
写的不错,需要好好消化
发表于 2019-3-1 10:45:13
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

2回帖数 2关注人数 7778浏览人数
最后回复于:2019-3-1 10:45

返回顶部 返回列表