随着各行各业数字化技术和工具的提升,企业的数据量呈指数级增长,并且变得越来越分散,越来越碎片化,越来越多企业面临着高成本&低价值的数据集成、不断攀升的运维成本、不断增长的实时数据需求等多重挑战,随着数据量的聚增,数据管理理念与数据管理平台工具也在发生不断地演变,出现了用于管理这些复杂数据问题的新数据管理实践,包括Data Lake、 Data Mash,以及本文重点介绍的Data Fabric。
全球多个头部IT技术咨询机构包括Gartner 、Forrester、IBM都将 Data Fabric定义为“数据管理的未来”。通过基于主动元数据、语义知识图谱、数据虚拟化、AI等技术的 Data Fabric 成为应对数据类型多样化以及数据量激增的最佳解决方案。
Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。
Data Lake、 Data Mash、Data Fabric 这些架构在单一面对数据集成服务层面都聚焦解决来自大量不同渠道,不同格式数据源的集成,组织、管理、到最终面向用户提供服务的挑战。但它们在有效管理数据方面都有自己的有缺点,从增加或转移数据的技术成本到漫长而昂贵的数据迁移、运维、数据安全等各方面都存在不同的成本支出。
Data Lake、 Data Mash、Data Fabric之间的区别和优缺点是什么?
Data Lake
Data Lake 不同于 Data Fabric. Data Lake像数仓一样, 主要目标是将数据收集并进行组织存储与管理,并不像Data Mash一样聚焦实现数据的链接. Data Lake通常主要实现不同结构不同类型的数据的存储与组织,也不同于数仓,数仓聚焦存储相同数据结构的相同类型数据。在Data Lake架构中,必须要将所有数据由原来的系统或数据源抽取汇集到数据湖中,以便于应用或者提供给业务分析使用,数据湖主要应用场景为业务分析 OLAP , 并不适配需要支持大量并发事务处理的OLTP应用场景。使用数据湖进行数据管理的一个关键挑战是将数据从孤立的系统转移到数据湖中意味着额外的开发时间和开发成本。例如,在清理并迁移数据湖中的数据供开发人员使用之前,开发人员无法启动新应用程序。随着时间的推移,该数据湖的开发维护和维护会给工程团队带来额外的技术债务。
Data Mesh
Data Mesh 是一种数据架构方法,比传统的 ETL 流程更高效,构建维护成本更优,它赋予了各个业务领域更多的自主权和责任,让他们能够更快速地解决问题和增加价值,它将数据分散到各个业务领域,如营销、销售和客户服务,让这些领域拥有自助式数据平台和联邦计算治理。这种方法的出现是为了解决传统的集中式数据管理模式所面临的挑战,相比之下,Data Fabric 和Data Mesh 设计架构采用不同的方法。两者都侧重于直接连接到数据源而不是抽取汇聚所有数据。正如我们上面所讨论的,这使您可以访问实时数据并避免及时且成本高昂的迁移项目。
Data Fabric 和Data Mesh 以不同的方式解决这个数据连接问题。Data Mesh使用跨微服务的复杂 API 集成来将整个企业的系统缝合在一起。因此,使用Data Mesh虽然您避免了大量的数据工程工作,但您可以将其换成处理 API 的额外软件开发工作。
Data Fabric
Data Fabric 是 Data Mash 之后的一个新的数据集成管理架构,都是面向最终的数据使用,Data Fabric 是一种数据管理设计,旨在实现灵活、可重用和增强的数据集成管道、服务和语义。Data Fabric 的独特之处在于它能够在数据集之上创建虚拟化数据层,从而无需Data Mash或Data Lake所需的复杂 API 和编码工作。这使得团队能够更快、更敏捷地进行数据分析、数据建模和数字化转型工作。
Data Fabric支持不同的数据集成风格的组合,并利用活动元数据、知识图谱、语义和机器学习来增强数据集成的设计和交付。Data Fabric 提供对业务应用的全面视图。与这些单独的数据存储系统相比,Data Fabric 旨在在数据环境之间创造更多的流动性,试图抵消数据迁徙与归集的问题。Data Fabric 抽象了数据移动、转换和集成所涉及的技术复杂性,使企业内的所有数据都可用。
Data Fabric 如何落地
Data Fabric 架构围绕着将平台中的数据与需要数据的应用程序松散耦合的理念展开,要解决的问题涵盖数据发现、准备、服务、治理等在内的数据全生命周期,无法仅仅依靠单一产品实现,它需要一系列技术或产品的有机整合来实现。以国内一家湖仓解决方案厂商对Data Fabric落地案例,设计了 NoETL 湖仓平台产品体系,体系化实现了 Data Fabric 的架构思想,其关键设计如下:
如上图所示,NoETL 湖仓平台由主动元数据与知识图谱、策略引擎、增强数据目录,数据虚拟化、DataOps等关键能力构成。
Data Fabric 架构具有六个基本组件,即数据管理的六个层次,包括以下内容:
- 数据管理层:负责数据治理和数据安全。增强数据目录。
- 数据摄取层:开始将云数据连接在一起,找到结构化和非结构化数据之间的联系。元数据知识图谱。
- 数据处理:数据处理层对数据进行精炼,以确保只有相关数据被提取出来。元数据智能驱动引擎。
- 数据编排:这一关键层执行数据布局中最重要的工作,即转换、集成和清洗数据,使其对业务各个团队可用。对应 DataOps.
- 数据发现:这一层发现了整合不同数据源的新机会。知识图谱层。
- 数据访问:这一层允许数据的使用,确保某些团队具有符合政府法规的特定权限。BI 工具, API访问层。
Data Fabric的关键优势包括打破数据孤岛、通过元数据管理、语义知识图和机器学习实现集成环境的一致性,以及最大限度地发挥混合云的潜力,简化集成设计、部署和维护的开发和管理时间,使业务用户能够在不依赖IT的情况下探索和分析数据,使组织能够更好地利用其数据,帮助企业降低成本,减少风险,加速洞察交付。
使用价值
通过利用最佳和最准确的数据源来降低成本。
通过自动化数据质量流程来降低风险。
通过企业内所有相关信息的单一视图加速洞察交付。
数据输入和集成能力,连接数据源和应用程序。
增强数据质量、数据准备和数据治理能力。
通过预打包模块连接任何数据源,无需编码。
处理云、本地和混合等多个环境。
应用场景
企业创新
Data Fabric技术可以为企业创新打开新的道路,特别是在加速数据和分析生命周期方面。对于那些希望整合多个数据源、云平台、计算引擎、领域和系统的组织来说,实施Data Fabric架构已经成为必然选择。
预防性维护
Data Fabric技术可用于进行预防性维护分析,有助于减少停机时间。Data Fabric可以从各种数据点中获取见解,并提前预测预防性维护周期。这也有助于有条理地规划备件、设备、人员和所需材料。
打破数据孤岛
Data Fabric的综合方法使其成为真正结束数据孤岛的第一项技术。数据孤岛会妨碍生产力,但由于无法绕过依赖于应用程序的数据库,因此一直没有可接受的替代方案。Data Fabric可以解耦数据和应用程序,使得可以采用数据为中心的理念,并摆脱构建/集成的困境。
提高安全应用和预防性维护
Data Fabric提高了安全应用程序的可靠性和安全性。它有助于协调和建立来自物联网设备和应用程序的传感器日志和指标等数据源之间的有价值的联系。通过从知识图谱和算法中获取关系,安全应用程序可以立即标记并阻止符合已设定欺诈标准的任何交易,从而提高应用程序的安全性。
集成多云环境
运行在混合或多云系统上的组织可以依靠Data Fabric的平台、环境和多云不可知特性。此外,Data Fabric与几乎所有技术堆栈的构建组件兼容,使得在不同平台之间的数据流动变得简单和无摩擦。因此,采用AWS、Azure和Google Cloud Platform(GCP)等多云环境的组织可以轻松构建其Data Fabric架构。
确保数据合规性和严格治理
Data Fabric有助于确保数据的合规性和严格治理。它可以帮助组织管理和维护数据安全性和合规性。