Data Fabric——以数据为中心的企业的“必备”
在过去几年中,“Data Fabric”一词已成为企业数据集成和管理的代名词。分析公司 Gartner 将“数据编织”列为“2021 年十大数据和分析技术趋势”之一,并预测到 2024 年,25% 的数据管理供应商将为数据编织提供完整的框架——高于目前的 5%。
本文通过引用数据编织的定义、目的、架构、挑战、最佳实践、优势、供应商以及数据编织功能清单来解决数据编织的内容、原因、方式和对象。
1 Data Fabric 概述
Data Fabric 使整个企业的数据访问大规模*化。它是一个单一的、统一的架构——具有一组集成的技术和服务,旨在在正确的时间、以正确的方法向正确的数据消费者提供集成和丰富的数据——以支持运营和分析工作负载 .
Data Fabric 结合了关键数据管理技术,例如数据目录、数据治理、数据集成、数据管道和数据编排。
2 为什么是 Data Fabric
Data Fabric服务于广泛的业务、技术和组织协调驱动因素。
业务驱动因素
通过可靠、快速地将数据输送到数据湖和仓库中来缩短洞察时间并做出更明智的决策。
获得实时、360度-任何业务实体(例如客户、索赔、订单、设备或零售店)的视图,以实现微细分、减少客户流失、提醒运营风险或提供个性化的客户服务。
将总拥有成本降低到通过以增量和快速的方式对遗留系统进行现代化操作、扩展、维护和更改。
数据管理因素
程序数据准备自动化使数据科学家、数据工程师和其他 IT 资源免于执行繁琐的重复数据转换、清理和丰富任务。
获得访问任何数据交付方法中的企业数据——包括批量数据移动 (ETL)、数据虚拟化、数据流、更改 d数据捕获和 API。
数据编织平台集成并增强了公司当前使用的数据管理工具,并允许其他人退休,以提高成本效益。
组织驱动
数据工程师和数据消费者之间共享的通用语言改善了数据和数据之间的协作业务团队。
自助服务数据访问功能让数据消费者可以随时随地获取所需数据,从而提高业务敏捷性和速度。
3 Data Fabric架构
Gartner:理想的、完整的 Data Fabric 设计,包含许多组件。
设计良好的 Data Fabric 架构是模块化的,支持大规模、分布式多云、内部部署和混合部署。
如上图所示,当数据从源头提供给消费者时,它被编目、丰富以提供洞察和建议、准备、交付、编排和设计。
数据源的范围从孤立的遗留系统到最现代的云环境。
数据编织的数据消费者包括数据科学家和数据分析师(与数据湖合作)、营销分析师(参与客户细分)、销售、营销和数据隐私专家(关注客户细分)、云架构师等.
4 数据网格架构的数据编织
数据网格架构解决了数据管理中的四个关键问题:
数据分散在数十个甚至数百个遗留系统和云系统中,因此难以获得单一的事实来源
以数据为中心的企业必须处理的数据速度和数量
当访问通常需要数据工程时,数据难以获取
业务分析师、运营数据消费者、数据工程师和数据科学家之间缺乏沟通。
数据编织非常适合数据网格设计,因为它构建了一个集成的跨广泛数据源的连接数据层,可即时、全面地了解业务,包括分析和运营工作负载。
Data Fabric 建立了不同数据产品的语义定义、数据摄取模式以及保护数据的必要治理策略。
此外,各种业务领域协调额外数据编织节点的部署,使它们能够控制数据管道和服务。
数据网格架构很容易使用数据编织实现。
可以实时管理、准备和交付数据的数据编织创建了理想的数据网格核心。当然,数据网格架构有其实施挑战,但数据编织很容易处理这些挑战:
5 Data Fabric核心能力
可视化数据沿袭是一项关键技术,因为在使用传统数据建模和集成工具时会丢失关系洞察力。
Data Fabric 支持将以下关键功能集成到单个平台中:
数据目录
对数据资产进行分类和盘点,可视化呈现信息供应链
数据工程
为运营和分析用例构建可靠且强大的数据管道
数据治理
确保质量、遵守隐私法规并使数据可用——安全且大规模
数据准备和编排
定义从源到目标的数据流,包括数据清理、转换、屏蔽、扩充和验证的步骤序列
数据集成和交付
从任何来源检索数据并将其交付给任何目标,采用任何方法:ETL(批量)、消息传递、CDC、虚拟化和 APIs
数据持久层
为了在广泛的关系和非关系模型中动态持久化
数据数据编织还应该解决以下关键的非功能性能力:
数据规模、数量和性能
无论数据量有多大,都可以无缝地动态向上和向下扩展。支持企业级的运营和分析工作负载。
可访问性
支持所有数据访问模式、数据源和数据类型,并集成静态或动态的主数据和事务数据。从内部部署和云系统中以任何格式(结构化或非结构化)摄取和统一数据。数据结构逻辑访问层需要允许数据消费,无论数据存储或分布在何处、如何存储,因此无需深入了解底层数据源。
分发
Data Fabric 应可部署在多云、本地或混合环境中。为了保持事务完整性和数据治理能力,Data Fabric 需要支持智能数据虚拟化策略。
安全
在持久化数据的地方,必须对其进行加密和屏蔽以满足数据隐私法规。数据结构应该能够将用户凭据传递到源系统,以便正确检查和授权访问权限。
6 用于操作工作负载的Data Fabric vs Data Lakes vs Databases
为了解释 Data Fabric 如何补充和改进运营工作负载的大数据存储,Data Fabric、Data Lakes 和 Databases 之间的比较很有用。
下图总结了每种数据存储的优缺点,因为它涉及大规模、大容量、可操作的用例。
因此,虽然 Data Fabric 是针对大规模运营工作负载的卓越解决方案,但它也是用于离线分析工作负载的数据湖和数据库的互惠技术。对于此类工作负载,Data Fabric 可以:将新的、受信任的数据输送到其中,用于离线分析。从它们那里获得业务洞察力,以嵌入到实时运营用例中。
7 数据编织用例
在企业运营中,有许多用例需要能够支持数千个并发事务的大规模、高速数据架构。示例包括:
提供 360 度客户视图
向自助 IVR、客户服务代理 (CRM)、客户自助服务门户(Web 或移动)、聊天服务机器人和现场服务技术人员提供客户的单一视图
遵守数据隐私法
借助灵活的工作流程和数据自动化解决方案,协调人员、系统和数据的合规性——旨在解决当前和未来的法规
将企业数据输送到数据湖和仓库
使数据工程师能够快速、大规模地准备和交付新的、可信的数据——从所有来源到所有目标——
按需提供测试数据
创建测试数据仓库,并在几分钟内自动向测试人员和 CI/CD 管道交付匿名测试数据,并具有完整的数据完整性
现代化遗留系统
安全地将数据从遗留系统迁移到数据编织中,然后将结构用作新开发应用程序的记录数据库
保护信用卡交易
通过加密和标记原始数据来保护敏感的持卡人信息,以避免数据泄露
预测客户流失、检测客户欺诈、信用评分等
8 许多操作用例要求 Data Fabric 在瞬间响应复杂的查询
因此,Data Fabric 必须包括用于处理的内置机制:
实时数据摄取
从操作系统持续更新(每天有数百万到数十亿次更新)
连接到不同的系统
TB 级的数据分布在数十个海量数据库/表中,通常采用不同的技术
动态数据转换、数据清理和数据丰富
实时提供有意义的见解并影响业务成果
实体的特定实例
例如,检索特定客户、位置、设备等的完整数据。
高并发
每秒处理数千个请求
9 CHAPTER 08 Data Fabric 优势
Data Fabric 与其他数据管理方法(例如主数据管理、数据中心和数据湖)相比具有许多优势,包括:
增强的数据管理
允许自动检索、验证和丰富数据——无需任何转换脚本或第三方工具
扩展数据服务
使用创新引擎来管理和同步数据,完全支持 SQL 和嵌入式 Web 服务层
高一致性、持久性和可用性
符合企业标准,具有值得信赖的数据库层和处理引擎
卓越的性能
依靠能够在少量数据上运行每个查询的架构,以及内存中的处理
严格的安全性
由于采用了复杂的多密钥加密引擎,消除了大规模数据泄露的可能性
CHAPTER 09Data Fabric 好处
Data Fabric 为企业提供的运营优势包括:
简化数据编排
集成外部数据库、业务逻辑、屏蔽、解析和流式处理的算子
自动化测试数据管理
从生产系统生成数据,然后向测试团队提供高质量的测试数据
快速的数据隐私合规性
配置、管理和审计与 GDPR、CCPA、LGPD 等数据隐私法规相关的数据主体访问请求。
全面的数据管理
使用管理管理工具、直观的可视化工作室和 Web 管理工具配置、监控和管理数据
优化拥有成本
依靠商用硬件上的内存性能、完整的线性可扩展性和无风险集成
10 Data Fabric 供应商
有多家供应商提供一组集成的功能来支持 Data Fabric 架构。排名前 5 位的 Data Fabric 供应商如下所示:
11 用于分析和运营的数据编织
通常认为,数据编织的构建是为了支持大数据分析——特别是趋势分析、预测分析、机器学习和商业智能——由数据科学家在离线模式下执行,以产生业务洞察力。
但数据编织对于依赖准确、完整和新鲜数据的运营用例(例如客户流失预测、信用评分、数据隐私合规、欺诈检测、实时数据治理和 360 度客户视图)同样重要。
数据团队不希望有一种数据编织解决方案用于数据分析,另一种用于运营智能。他们希望两者都有一个单一的数据编织。
理想的数据编织优化了每个业务实体(客户、产品、订单等)的视野和理解深度。它为企业提供干净、新鲜的离线数据分析数据,并为在线运营分析提供实时、可操作的数据。
Data Fabric 同时支持离线数据分析和在线运营智能。
具体方法如下:
Data Fabric 基于业务实体的 360 度视图持续提供高质量数据,例如特定客户群、公司产品线或特定地理位置的所有零售店 - 到数据湖或 DWH。
使用这些数据,数据科学家创建和改进机器学习 (ML) 模型,而数据分析师使用商业智能 (BI) 来分析趋势、细分客户并执行根本原因分析 (RCA)。
改进的 ML 模型被部署到数据编织,为单个实体(客户、产品、位置等)实时执行——从而“操作”机器学习算法。数据编织实时按需执行 ML 模型,为其提供单个实体的完整和当前数据。
ML 输出会立即返回到请求的应用程序,并作为实体的一部分保存在数据编织中,以供将来分析。Data Fabric 还可以调用实时推荐引擎来提供下一个最佳操作。
12 为什么使用K2View
K2View 是唯一能够实时、大规模响应以实体为中心的数据查询并支持运营和分析工作负载的数据编织。
以下是 K2View 成为世界上一些最大企业的首选数据编织的 5 个原因:
适用于每个业务实体的微型数据库
K2View 的专利 Micro-Database™ 提供无与伦比的性能、易于访问、数据完整性和通用语言在业务和 IT 之间。K2View Data Fabric 将来自所有底层源系统的每个业务实体的数据统一到一个单一的微数据库中,一个业务实体的每个实例。
例如,客户微数据库统一了公司对特定客户的了解——包括所有交互(电子邮件、电话、网站门户访问、聊天……)、交易(订单、发票、付款……)和主数据——无论底层源系统、技术和数据格式如何。在这种情况下,为每个客户管理一个微型数据库。
微型数据库可以通过捕获或动态计算的新字段来丰富——例如 KPI、同意信息、流失倾向等。它可以很容易地定义,使用自动发现,从底层系统中提取建议的数据模式。