数据架构可以说是数据工作的蓝图,很多人以为数据架构有标准的定义和内涵,但翻遍全网,发现业界对数据架构的认识并不完全一样。
考虑到数据架构对于数据工作的极端重要性,在研究了众多文献后,结合真实经历,给出全新版本的数据架构图,见下图,共包括6大模块。
数据架构识别企业的数据需求,并设计和维护总蓝图以满足需求,使用总蓝图来指导数据集成、控制数据资产、并使数据投资与业务战略保持一致。主要包括数据模型、数据流设计。
数据架构是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。主要包括数据资产目录、数据标准、数据模型及数据分布。
数据架构通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。
4、Software Architecture Academy
数据架构是数据系统的蓝图,它满足产品的业务需求,并描述如何收集、存储、转换和分发数据。它由数据模型、治理策略、规则和标准组成,需要实施和遵循这些模型、治理策略、规则和标准,以构建强大而安全的数据系统。
数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI) 应用程序的基础。
数据架构描述了一个组织的逻辑和物理数据资产及其数据管理资源的结构。
从以上定义中,我们能看出一些共性,但似乎也说不清楚,然后我们回到第一性原理,看看架构的本质是什么。
架构是对组件要素的设计,旨在优化整个结构或系统的功能、性能、可行性、成本和用户体验。在国际标准ISO/IEC/IEEE 42010:2011中,将架构定义为:“系统的基本结构、具体体现在架构构成的组件、组件之间的相互关系以及管理其设计和演变的原则”。
综合以上所有的定义,最后得到了一个比较满意的定义:
数据架构是对组织中数据资产的结构化表示,它涵盖了数据的定义、存储、组织、集成和管理方式,旨在提供一个清晰的蓝图,使组织能够有效地管理和利用其数据资产,确保数据的一致性、完整性和可访问性,支持业务需求和决策过程。
但关于数据架构具体内涵是什么,包含哪些输出物,业界各有看法,比如《华为数据之道》认为数据架构应该包括数据资产目录、数据标准、数据模型及数据分布,如下图所示。
温昱在《业务架构.应用架构.数据架构实战》一书中认为数据架构应该包括数据类型及其来源、数据模型、数据存储、数据流及数据管理,如下图所示。
首先,数据模型和数据流动是肯定入选的,因为无论是数据资产的结构化表示,还是定义数据实体和实体之间的关系,都与这两者有关,华为数据之道,DAMA也分别包含这两者。
但数据实体除了与数据实体有关系外,还与业务和应用实体有关系,在TOGAF中体现这一关系的就是数据实体/业务功能矩阵和应用程序/数据矩阵,这些矩阵帮助定义和管理数据需求,确保数据架构能够有效支持业务流程的执行和优化,并且实现数据在不同业务功能中的一致性和完整性,因此我认为数据实体/业务功能矩阵、应用程序/数据矩阵即数业映射应成为数据架构的一部分。
其次,数据管理和数据治理也应入选,前者明确了数据管理的方法和流程,后者通过制定和执行数据管理的政策、标准和流程,确保数据在创建、存储、处理和使用过程中保持一致和完整性,TOGAF和Software Architecture Academy也有类似的观点。
再次,我认为数据架构应该包括数据声明,描述清楚数据架构的实施愿景、范围和目标等内容,作为评估数据架构成功执行的依据,也应包括数据原则,用于指导企业架构设计和实施的基本准则和指导方针,例如,"数据是企业的资产"、"确保数据安全和隐私"等。
最后,参考TOGAF在数据架构中给出的主要输出物,包括数据实体/数据组件目录、数据实体/业务功能矩阵、应用程序/数据矩阵、概念数据图、逻辑数据图、数据传播图、数据安全性图、数据迁移图、数据生命周期图等,可以认为数据模型、数据流动、数据管理等属于数据架构的重要组成部分。
基于以上分析,我认为数据架构的主要输出物包括6个方面,分别是数据声明、数据原则、数据模型、数据流动、数据管理及数据治理,下面对数据架构各部分内容进行详细介绍。
新版数据架构详解
架构工作声明是TOGAF架构开发方法(ADM)中的关键文档之一,用于详细描述架构开发的范围、方法、资源和计划。它定义了架构项目的基本框架和预期成果,数据申明是其中的一部分。下面是一个示例:
架构原则是用于指导企业架构设计和实施的一组基本准则和指导方针。它们帮助确保架构的一致性、灵活性和可扩展性,使架构决策在不同的项目和团队中保持一致。架构原则通常由组织的高级管理层和架构师共同制定,并在整个组织中推广和遵循。下面是一个示例:
定义数据元素、它们的属性以及数据元素之间的关系。输出物包括概念模型、逻辑模型、物理模型、数据目录等等。
概念模型是高层次的抽象模型,用于描述业务实体及其关系,主要面向业务用户和利益相关者。它通常不涉及技术细节,而是强调业务需求。下面是在线书店的概念模型图:
图中包含四个实体:Customer(客户)、Order(订单)、Book(书籍)和Payment(支付)。实体之间的关系如下:
Customer下Order:一对多关系(1:N)
逻辑模型是对概念模型的进一步细化,描述数据的结构和关系,但不涉及具体的数据库实现细节。逻辑模型详细定义了数据元素、属性及其关系,面向系统分析师和设计师。下面是在线书店的逻辑模型图:
图中包含五个实体:Customer(客户)、Order(订单)、OrderItem(订单项)、Book(书籍)和Payment(支付),每个实体标注了属性,各实体之间的关系如下:
Customer下Order:一对多关系(1:N)
Order有OrderItem:一对多关系(1:N)
OrderItem包含Book:多对多关系(N:N)
物理模型是对逻辑模型的进一步细化,描述具体的数据库实现细节。物理模型包括表、列、数据类型、索引、约束等,面向数据库管理员和开发人员。下面是在线书店的物理模型图:
图中包含五个实体:Customer(客户)、Order(订单)、OrderItem(订单项)、Book(书籍)和Payment(支付)。每个实体包括其属性和数据类型,各实体之间的关系如下:
Customer下Order:一对多关系(1:N)
Order有OrderItem:一对多关系(1:N)
OrderItem包含Book:多对多关系(N:N)
数据目录提供了一个中央存储库,用于管理和发现数据模型资产,数据目录帮助组织确保数据的一致性、可发现性和可管理性。如下示例:
描述数据在系统内和系统间的流动和传输方式。数据流动的主要输出物包括数据流转、数业映射等。
数据分布用于表示数据在系统间的流动过程,包括数据流图、数据映射文档、数据流规范、数据转换规则等,如下示例:
数业映射是数据流动的基础,定义了数据实体存在于在哪些业务功能和应用程序中,帮助定义和管理数据需求,确保数据与业务功能的一致性和完整性,有效支持业务流程的执行和优化。以下是数据实体/业务功能矩阵、应用程序/数据矩阵示例:
数据管理是指对企业内所有数据资产的管理和控制,旨在确保数据的高质量、完整性、安全性、可用性和可访问性,以支持业务决策和运营。数据管理的主要输出物包括数据质量管理、元数据管理、数据安全管理、数据存储管理、数据集成管理及数据生命周期管理等等。
数据质量管理包括数据清洗、数据验证和数据质量监控,以确保数据的准确性和完整性。如下示例:
元数据管理涉及收集、存储和维护描述数据的数据(元数据),以便于数据发现和使用。如下示例:
数据安全管理涉及保护数据免受未经授权的访问、使用和泄露,确保数据的机密性、完整性和可用性,如下是数据安全视图的示例:
数据存储管理涉及设计和优化数据存储方案,确保数据的高效存储和访问。如下示例:
数据集成管理涉及将来自不同源的数据集成到统一的数据平台,以支持业务分析和决策。如下示例:
数据生命周期管理涉及数据从创建、使用、存储到归档和销毁的整个生命周期管理。如下是数据生命周期视图的示例:
数据治理涉及制定数据策略、建立数据管理组织结构和流程,以确保数据的一致性、完整性和使用合规性。数据治理的主要输出物包括数据策略、数据政策、数据组织及数据标准等等。
制定企业的数据战略,包括数据管理的总体目标和方向。如下示例:
数据政策是指导数据管理和使用的高层次原则和规定,旨在确保数据的一致性、完整性、可用性和安全性。这些政策通常由企业的管理层制定和批准,并在整个组织中实施,包括有。如下示例:
数据标准是关于如何定义、格式化和管理数据的详细规则和技术规范。数据标准确保在整个组织中一致地创建、管理和使用数据。包括有数据命名标准、数据格式标准、数据质量标准及元数据标准等,如下示例:
明确数据管理的角色和职责,确保数据管理活动的有效执行,如下示例:
|