Data mesh简介

时间:2023-02-15 11:03:08

数据网格概念:

并不像看起来那么新,它在 2019 年左右出现在Zhamak Dehghani之手,她可以被认定为数据网格创始人(正如她自己定义的那样)。

这个概念的想法是,以某种方式消除或至少最小化在数据平台架构、数据管理和数据团队中使用的单一和集中方法的约束,即数据仓库和数据湖管理由一个*团队。Data Mesh建议采用基于分布式架构和业务领域(域)对其数据的责任(治理角色的去中心化)的去中心化模型。本质上,它是指将数据湖和数据仓库分解为更小、更分散的部分的概念。

数据网格建立在四个原则之上:

第一个原则基于面向领域的分散数据所有权和架构,这意味着组织/业务功能需要拥有自己的数据。这个想法的核心是领域驱动设计(DDD)。

第二个原则是将数据视为一种产品,并以对其他人可用的形式公开该领域的产品。

第三个原则将数据基础设施定义为以自助方式提供不同功能的平台。

第四个侧重于联合计算治理,平衡有足够的集中控制以简化工作,但保持决策尽可能本地化。

在一个简单的愿景中,使用 Data Mesh,您可以像组织业务和人员一样组织数据,这对问责制非常有用。

在技术上,数据网格能够通过促进数据所有权的更大灵活性和自主性来解决数据仓库和数据湖的缺点。这转化为数据实验和创新的更大范围,因为负担由少数专家承担。自助式基础设施作为一个平台,为更通用、更自动化的数据标准化以及数据收集和共享方法开辟了道路。因此,通过激励共享心态,您可能会为您的数据策略做出更多贡献。

在数据和分析领域中,数据网格(Data Mesh)范式是取代数据湖、成为主要架构模式的强势候选者。 重要的是,数据网格引入了新的组织视角,并且它与特定技术无关。 其关键思想是将领域驱动设计(DDD)和产品思维,应用到数据和分析领域的难题中。与引入DevOps文化相比,建立数据网格文化包含人与人的连接,同理心,以及联合责任结构的建立。 通过这种方式,从数据中产生业务价值能够实现可持续的规模化。

数据仓库、数据湖以及关于中心化数据所有权的问题

在传统的商业智能(BI)中,集中维护的数据仓库是许多商业决策的基础,例如:通过最新的报表来支持这些商业决策。 随着大数据技术的成熟以及数据科学的日益普及,许多公司投资建设了*数据湖——有些是为了替代数据仓库,但更多情况下是对现有数据仓库的补充。 二者的主要区别在于集展和建模的不同:通过数据仓库的方式,数据在摄取时,已经根据特定的应用进行了转换; 对于数据湖,这种转换仅在数据用于消费时发生。 但是,这两种方法的共同特点是中心化。 而正是这种中心化导致了问题的反复出现。

如今有能力的工程师为什么无法解决这种问题? 原因在于这不是技术问题,而是组织问题。 主要问题之一是参与各方的职责划分不当。

数据生产者一方,具有领域专业知识,即他们了解数据的含义,并且可以直接更改数据的形式; 而数据使用者一方,是数据的既得利益者,了解数据的业务潜力,因此可以清楚地描述需求,包括数据质量的相关需求。 数据团队的成员夹于这两方之间:他们有责任交付可靠和高质量的数据,但他们既没有领域专业知识,也无法直接影响数据如何产生。 此外,他们并不是最终使用数据的决策者。 这意味着利益,责任和能力分布在三个不同的方面,这导致了摩擦,沮丧和误解。

Data mesh简介



Data Mesh:去中心化的领域所有权,共享的基础设施

通常,中心化数据所有权和中心化数据基础设施之间缺乏概念上的分离, 阻碍了去中心化数据所有权的优势。 实际上,在上述所有三种情况下,创建专注于自助服务工具的共享数据基础设施平台可以帮助缓解此类担忧。但是,至关重要的是,与领域无关的自助服务工具要能够使该数据架构平台脱离中心化的领域数据所有权。 然而,通过使用领域无关的自助服务工具,能够与让数据基础设施平台脱离中心化的领域数据所有权。否则,数据基础设施平台将存在迅速成为具有中心化数据所有权的*数据平台的风险,这正是我们首先要摆脱的境况。 最后,此方法还需要与建立针对数据的产品思维相结合,以确保去中心化的数据所有权是可持续的。

Data mesh简介

领域无关基础架构以及产品思维

为什么说数据基础设施平台确实是领域无关且专注于自助服务的呢?一个标志是,无需联系数据基础设施平台团队,团队即可通过提供领域数据来共享其专业知识。这意味着,那些数据基础设施平台的开发人员在完成本职工作时,并不需要详细的领域知识。

另一方面,该平台必须提供工具,让领域数据专家在无需深厚的数据工程专业知识的情况下管理其数据交付物的整个生命周期。这意味着必须使他们能够创建数据领域产品,对其进行描述和演进升级,观察其使用情况以及适时销毁数据。