NewSQL数据库数据模型设计

时间:2024-03-17 07:39:42

现如今, NewSQL 数据库与关系型数据库往往并存于企业的数据架构中。但是在 NoSQL 的数据管理方面,还缺乏像管理关系型数据那样成熟的方法与工具。

当前流行的 NewSQL 数据库在设计时更多地考虑了应用程序的性能,而较少考虑到高层业务模型、数据的集成以及数据的标准化。对于 NewSQL 数据库来说,其数据建模与物理数据之间存在着一条明显的鸿沟。

在本文中,将介绍数据建模技术管理 NewSQL 与关系型数据库的方案。统一数据建模支持多种特性,例如为 NewSQL 数据库的设计数据模型,以及对现有数据库中的数据进行反向工程。它同时也支持对现有数据库模型的可视化表现。

随着数据在 4 个方面的增长(数据量、多样性、速度以及值),数据的管理方式也发生了转变,从纵向扩展变为横向扩展,通过几十万台小型的服务器创建分布式计算应用,以取代单一的强大机器。为了支持分布式计算的需求,数据也必须转换为一种不同的模型。

当前的关系型数据库都支持第三范式。对于 ACID(原子性、一致性、隔离性与持久性)事务模型,如果一份数据在数据库中只拥有一个拷贝,那么更适合使用关系型数据库。这意味着任一时间内只有一份拷贝会更新。但对于来自多个不同应用的查询,数据必须进行聚合。因此,为了满足业务需求,数据必须进行分布式处理,而数据模式也必须进行反范式化。在设计模型时,必须考虑分布式的查询的情况,这就需要处于不同数据节点上的每个数据集必须包含足够的信息,能够独立地执行查询。

基于以上特征可知,创建 NewSQL 数据库时的基本要点在于通过逻辑模型描述业务需求,并通过反范式化的模式对应实际的数据模型。而不是在没有数据建模的情况下直接从程序向 NoSQL 数据库中写入数据。

此外,由于数据的多样性将进一步提高,因此在灵活性方面要能够匹配数据的原生格式,使其能够保存在文档图形键值数据库中。在敏捷的业务场景中,数据的结构也将产生改变。但预定义的强模式将受到这种业务场景的限制。在关系型数据库中,对现有数据列的更改或是新建数据列操作将造成数据表的重建,但对于NewSQL 数据库来说,添加新的属性或组合对象操作都非常灵活。

另一方面,在 NewSQL 中写入数据前也无需强制使用预定义schema。而在读取数据时,schema的应用表现为以原始形态加载数据,在读取后就可以按需求随意变换。对于数据的读取与理解来说,数据模型是必需的,但这对于使用 Map Reduce 程序,而又并非开发人员的使用者来说是一个不小的挑战,因为数据模型在 Map Reduce 程序中是隐含的,因此大多数 DBA 与数据分析师无法访问与理解这些模式。正因为如此,数据模型就成为了更好地理解企业数据的关键因素。

此外,与传统的批量数据集相比,流数据的处理又提出了不同的要求(实时性,只增性等等)。为了支持多个并发式数据处理系统的需求,数据本身或许还要进行某种形式的转换。在数据分析过程中,数据模型能够帮助用户理解数据,并调整数据结构。根据数据模型的设计,数据集成系统能够从原始的流数据中萃取出维度数据,并导入数据仓库中。

因此,基于 NewSQL 数据库的数据架构中数据模型仍然扮演了关键的角色。

RDBMS 中的 ACID(原子性、一致性、隔离性和持久性)特性是数据库方面最重要的一种需求,这种重要性在今后也将继续。而在未来,RDBMS 与 NewSQL 的混合使用将成为企业架构中的一种典型场景。逻辑数据模型将用于描述 RDBMS 与 NewSQL 数据库的数据模式。

以下是 RDBMS 与 NewSQL 数据库之间区别的简单总结。

NewSQL数据库数据模型设计

图 1,RDBMS 与 NoSQL 数据库的区别

要在不同的业务场景中管理关系型与 NewSQL 数据库的区别,并充分利用他们的功能,这是一个极大的挑战。因此,我们需要一种统一的方式以管理这些数据库模型。

Datablau DDM支持对 RDBMS 与 NewSQL 数据类型(文档数据库及列族数据库)进行数据建模。它还支持 RDBMS 与 NewSQL 数据库之间的数据迁移。

逻辑、RDBMS 与 NewSQL 数据模型基本概念的对照

概念 / 逻辑 RDBMS NewSQL
实体 集合或列族
实体的实例 文档或行
属性 键或列
某个实体实例的属性 单元格的值 字段值
领域 数据类型 数据类型(某些 NoSQL 数据库没有定义数据类型,所有的值都是纯文本。)
关系 约束 引用、嵌入或附加表 / 跨多个行的列族。
索引 索引、附加表或引用
唯一标识符 主键 行键

Datablau DDM支持的RDBMS和NewSQL数据库

NewSQL数据库数据模型设计

Datablau DDM展示MongoDB数据模型

NewSQL数据库数据模型设计

 

Datablau简介

北京数语科技有限公司(以下简称“数语科技”)成立于2016年,是专注于数据治理领域的国内自主知识产权的专业软件产品提供商,主要业务是数据治理软件产品的研发与销售。数语科技的创始团队全部来自CA erwin,天然具有世界级水准的软件产品开发能力。创始人兼CEO王琤曾任职erwin全球研发总监,拥有超过十年以上数据建模和数据管理的从业经验。CTO朱金宝曾任职erwin首席架构师,先后服务多家全球知名企业,并曾全程参与中国建设银行数据治理项目,目前全面负责Datablau软件平台的研发工作和关键项目的实施工作。

数语科技根据DAMA理论和中国国情独立研发Datablau新一代数据治理平台,平台由Datablau DDM数据建模产品和Datablau DAM数据资产管理平台两大部分组成,全部拥有软件著作权和知识产权,一站式全面满足中国企业的数据治理需求。其中数据建模产品DDM是Datablau填补国内空白的重量级产品,帮助中国客户摆脱国外产品的垄断现状。

2018年,Datablau数据治理平台通过了中国信息通信研究院严格苛刻的产品评测并获得的“最佳大数据产品”奖。

 

Datablau Data Modeler简介

DDM(Datablau Data Modeler)是国内首创的专业建模工具,是数据治理体系的重要组成部分。数据模型是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有数据模型,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。

更多了解我们, 官网: www.datablau.cn