作者:Kate Prohorchik,来源:谈数据
全文共4897字,建议阅读13分钟
随着数据量的不断增长和数据存储成本的逐渐降低,企业正在尝试使用大数据。不幸的是,业务人员并没有立即获得收益,而是意识到,尽管们已经拥有数据治理框架,但他们必须拥有一组可扩展的数据分析服务,以解决与多种数据格式的融合问题和数据安全性带来相关挑战。
出于这个原因,大数据治理需要一种不同的方法来确保“正确的人在正确的时间访问到正确的数据”,通过使用这些数据获得洞察力,驱动或指导业务决策。
01
大数据治理必答
企业的大数据治理应根据业务需求和行业标准量身定制,同时考虑大数据处理的基本特征和要求。例如,医疗保健和零售的数据治理都将涵盖个人信息,但针对每种情况的传输安全措施会有所不同。
实际上,应该没有任何区别——相同的原则应该适用于两者。
大数据治理在挑战和原则方面与传统数据治理非常相似。但是,前者必须考虑到一些特殊的大数据特征:
由于当今市场上的传统数据治理工具无法支持大数据处理需求,因此企业必须重新考虑其数据分析策略,并使现有技术成熟和发展以应对新的挑战。
大数据治理是跨越部门边界的,并对每个部门都有涉及或影响,不论是好的或坏的方式。它需要整个企业之间的协作以及明确定义的角色和数据所有权级别。当每个人都知道谁拥有数据相关的权力和责任时,就可以避免混乱和错误,让数据治理秩序化。
根据企业规模和目标,强大的大数据团队可能需要以下角色:
数据治理委员会:一般由企业的高级管理人员组成,负责数据战略创建或批准,负责项目优先级以及数据政策和标准授权。
首席数据官 (CDO):参与数据战略制定,监督数据框架实施,并将数据用作战略资产。他们创建数据标准、政策和实践,并发展企业数据文化。
大数据架构师:精通相关技术并了解它们之间的关系。他们负责设计能够解决任何数据相关问题的大数据处理解决方案。他们可以深入参与数据治理、自动化程序和数据安全性。
数据工程师:负责建立数据集成系统,以收集、清理和组织来自多个来源的数据,并将其传输到数据仓库。
数据科学家/数据分析师:负责分析大量结构化和非结构化数据,创建算法和预测模型,并提取与业务相关的趋势和见解。
数据所有者:一般是业务团队成员,他们使用数据并对团队内的数据资产的质量和安全性负责。
数据管理员:与数据所有者密切合作,并监督后者如何执行数据策略以及他们是否遵循数据政策和标准。他们还参与培训新的数据所有者。由于大数据经常被收集但由于缺乏专业人员而未被使用,目前对数据管理员和相关专业知识的需求明显更高。
IT 团队:负责技术实施和定制,开发用于大数据处理、审计、安全和维护的附加功能。
很明显,大数据技术能够取代上述一些角色,比如:架构师和数据科学家,或者一些角色可以合并和组合职责。但是,在技术实施过程中让所需的专业人员参与是很重要的。
重要的是要了解并非所有数据都可以以相同的方式进行管理,尤其是在我们处理大数据时。治理可以分为三个层次:
1、严格管理的数据,已经过审查、标准化、组织和性能优化。
2、松散治理的数据,可以有两种类型。一种是数据科学家用来进行实验,近似以及搜索趋势和模式的数据。另一种是不需要准备或需要最少标准化的数据,例如:密钥的ID。
3、非治理数据,是最纯粹形式的原始数据,没有额外的键。此类数据可用于“读取模式”分析——数据以无组织和非结构化格式存储,并针对特定目的进行组织和处理。
监控所有治理级别的数据非常重要——数据不断变化,可能需要转移到另一个治理级别。
02
大数据治理必备
对于大数据来说,即使是积累和存储这样的常见过程也存在很多为挑战,更不用说分析和预测了。以下是一些让大数据治理有所作为的必备品。
大数据和严格的控制不能结合在一起。为了允许不同级别的治理,有必要开发一个框架,让公司中的每个人都在同一页面上。每个企业都可以拥有与业务目标和愿景相一致的独特数据治理框架,但要实现可持续治理,有必要考虑以下组件。
为了确保收集和处理相关数据,每个人都朝着同一个方向前进,并且有衡量进展和成功的指标,有必要从上到下解释为什么大数据治理是必不可少的(可能通过使用数据讲故事)和基于这些目标制定大数据使命和愿景。
大数据治理策略需要专业的团队来制定、管理、使用和保护数据。根据企业的组织结构,有必要确定您需要哪些内部角色——数据架构师、数据科学家、数据所有者、数据管理员或其他人。一旦分配了角色,就可以委派正确的数据共享和使用的权限和责任。
应提供沟通机会和无障碍访问数据,让员工感觉他们是一个团队,而不是孤立的利益相关者。建立持续的培训计划并将所有数据角色纳入相关的大数据治理培训也很重要。
另一个重点是在数据治理团队中激发数据文化。理想情况下,它应该是一种参与、可持续性以及数据质量和合规性的文化。
大数据治理管理应与数据所有者和数据管理者一起制定一套规则和制度,如数据管理制度和数据标准,以规范数据采集、管理、使用和保护。大数据治理过程的所有参与者都应该了解数据使用(为确保这一点,定期进行数据审计)、合规法律和内部实践,知道如何在法律范围内行事,并正确合法地使用数据。
最重要的是,企业决定实施大数据治理以确保数据安全。除了强大的企业网络安全控制机制外,与数据交互的员工还应了解敏感数据的安全处理策略,并在数据处理和更改过程中遵守既定规则。建立一定的访问控制和安全授权策略来规范谁可以查看和更改不同类型的数据。
传统的企业数据仓库 (EDW) 是否已死?当然不是!
但是,要从大数据的业务影响中看到任何好处,需要一种新的架构,它结合了 EDW 环境和能够处理多结构化数据的创新技术。为此,引入了扩展数据仓库架构或 XDW。让我们回顾一下它的分层结构和功能组件:
数据存储层
数据存储层用于存储大量结构化和非结构化数据。它可以是本地存储在关系数据库、NoSQL 数据库、分布式文件系统中的原始数据,也可以是通过 AWS 或 Microsoft Azure 等服务存储在云中的原始数据。
该层还可以包括实时流数据——大量流处理的数据块,由多个源连续生成并通过服务器动态使用(与在处理之前首先存储和索引的数据相反)。它可以是应用内活动、社交媒体情绪、来自物联网设备的遥测等等。
数据采集整合层
该层用于将数据添加到数据层中。除了与精心设计的 ETL 流程的传统集成之外,这里还可以使用数据精炼。后者从物联网设备或社交媒体等来源批量和实时摄取原始结构化和非结构化数据,将其转换为有用的信息,并提供给其他 XDW 组件。
数据提炼用于确定大数据的价值。通过粗略的分析,可以了解哪些数据是有用的,并快速发现有趣的数据。该过程需要灵活的数据治理,因为生成的数据可能不需要集成和质量处理(但灵活性并不排除安全性和隐私性)。
数据处理层
这是传统 EDW 所在的位置,它获取所有数据,将其结构化为适合查询 SQL 和数据仓库 OLAP 服务器的格式,并将其推送到 BI 工具。对于金融或监管领域的关键分析,它仍然是干净、可靠和一致数据的最佳来源。它也是公司内各个部门使用的 KPI 和其他标准指标的数据来源。
调查技术,如 Hadoop 或 Spark,处理更多不寻常类型的数据和各种实验。他们探索大数据源并处理数据挖掘、模式分析甚至定制调查等分析方法。这些技术的使用场景从简单的实验沙箱到全面的分析平台不等。在任何情况下,它们都允许高速分析大量数据,并在 EDW、实时分析引擎或独立业务应用程序中使用这些数据。
数据分析和BI层
在这里,数据可视化和商业智能技术允许数据科学家和分析师探索数据、提出问题、构建可视化并与之交互等等。
另一个组件是支持流式分析和实时分析的应用程序开发的平台。其应用用例涵盖欺诈检测、流量优化、风险分析等。该平台与其他组件(如 EDW 或探查技术)紧密集成,可以自由地在它们之间传输数据。
所有这些组件都不能彼此孤立地发挥作用——所有这些组件都必须结合在一起,并辅以数据治理。
03
案例:某药企的大数据治理
介绍一个我们的大数据分析项目。我们与一家提供先进药物分析和技术的美国跨国公司合作。客户积累了 5 万多项专利的 5 亿多条患者记录,更不用说数 PB 的专有数据了。然而,他们的遗留系统限制了他们从不断增长的数据中获取更多价值的能力,因此他们联系我们,帮助他们创建商业智能项目计划、迁移到云端并提高数据管理能力。
客户的数据分析平台包含一个工具集,用于基于多个结构化和非结构化数据源生成报告。该系统无法支持公司的需求和适应不断变化的市场,因此需要在 UI、数据处理和报告生成方面进行重大的重新设计和优化。我们在 ASP.NET MVC 框架上开发了一个新的 BI 平台,使用 Microsoft SQL Server 作为数据库引擎,我们提供了重新开发的功能、灵活性和可扩展性。它使 SQL 查询速度提高了 3-5 倍,并减少了 RAM 和 CPU 使用率。
旧平台不支持多种数据源格式,并且具有过时的 ETL 配置,这会减慢数据处理速度。因此,数据处理可能需要数天时间,其中一些来源被排除在处理之外。此外,非技术用户无法参与 ETL 流程,需要一个用户友好的界面来与数据交互。
我们开发了一个数据管理应用程序并将其与多个数据库引擎(Oracle、Microsoft SQL)和 Apache Hadoop 集成,以实现大型数据集的分布式存储和处理。它使数据处理速度提高了 10 倍,并减少了内存和空间使用量。该应用程序也可供非技术用户使用,他们可以在几分钟内可视化数据并获取报告。该系统能够处理各种数据源、转换数据并准备不同的输出形式,无论是数据库还是文件。通过这种方式,用户能够将准备好的数据传送到其他目的地,例如云存储、FTP 服务器或其他团队。
为了在用户数量不断增长的情况下保持较高的系统性能,我们启动了从本地服务器到云端的系统迁移。我们的 DevOps 专家审核了现有基础架构并准备了迁移路线图。我们设计了一个可扩展且安全的云基础设施并将其部署到 AWS。
结果,客户获得了一个具有私有和公共子网、定义的网络网关和微调的安全设置的虚拟私有云。
为了确保大量敏感数据的安全,我们使用了 Amazon S3。关键数据通过 AWS 工具进行备份。我们利用 Amazon RDS 创建和保存数据库实例的自动备份。为了增强安全性,我们使用 AWS 服务将密码和许可证代码存储为加密参数,并启用托管实例的安全配置和密码重置。
我们的解决方案现在被许多领先的制药公司使用,使他们能够处理来自不同来源的多种格式的数据,并使用大数据治理工具高效、安全地管理他们的数据资产。
写在最后的话
大数据正在颠覆传统的数据管理。考虑到对大数据未来的预测,企业认为迫切需要寻求新方法和新技术解决方案,以帮助高效、安全地处理大量多格式数据。大数据治理是全新数据治理和使用方法的重要组成部分,通过量身定制的框架和基础设施以使其发挥作用,非常重要!
【END】
最后,感兴趣的公众号后台回复“资料”,我们整理了6个G数据平台、数据仓库、数据仓库、数据治理、企业数据化管理案例,供大家免费领取!
|