详解数据建模方法、模型、规范、流程、架构、分层和工具

01 数据建模相关概念

数据几乎总是用于两种目的：操作型记录的保存和分析型决策的制定。简单来说，操作型系统保存数据，分析型系统使用数据。前者一般仅反映数据的最新状态，按单条记录事务性来处理；其优化的核心是更快地处理事务。后者往往是反映数据一段时间的状态变化，按大批量方式处理数据；其核心是高性能、多维度处理数据。

通常我们将操作型系统简称为OLTP（On-Line Transaction Processing）— 联机事务处理，将分析型系统简称为OLAP（On-Line Analytical Processing）— 联机分析处理。

针对这两种不同的数据用途，如何组织数据，更好地满足数据使用需求。这里就涉及到数据建模问题。即设计一种数据组织方式（模型），来满足不同场景。在OLTP场景中，常用的是使用实体关系模型（ER）来存储，从而在事务处理中解决数据的冗余和一致性问题。

在OLAP场景中，有多种建模方式有：ER模型、星型模型和多维模型。

02 维度建模

维度建模，是数据仓库大师Ralph Kimball提出的，是数据仓库工程领域最流行的数仓建模经典。

维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

它是面向分析的，为了提高查询性能可以增加数据冗余，反规范化的设计技术。

2、维度表

维度表，一致性维度，业务过程的发生或分析角度，我们主要关注下退化维度和缓慢变化维。

退化维度（DegenerateDimension）

在维度类型中，有一种重要的维度称作为退化维度，亦维度退化一说。这种维度指的是直接把一些简单的维度放在事实表中。退化维度是维度建模领域中的一个非常重要的概念，它对理解维度建模有着非常重要的作用，退化维度一般在分析中可以用来做分组使用。

缓慢变化维（Slowly Changing Dimensions）

维度的属性并不是始终不变的，它会随着时间的流逝发生缓慢的变化，这种随时间发生变化的维度我们一般称之为缓慢变化维（SCD）。

SCD常用的三种处理方式：

① TYPE1 直接覆盖原值

② TYPE2 增加维度行

在为维度成员增加新行时，需为其分配新的主代理键。并且，至少需要在维度行再增加三列：有效日期、截止日期、行标识。这个地方可联想拉链表设计。

③ TYPE3 增加属性列

④ 混合方式

可根据实际业务场景，混合或选择使用以上三种方式，以快速方便而又准确的分析历史变化情况。

3、粒度

用于确定某一事实表中的行表示什么，是业务最小活动单元或不同维度组合，即业务细节程度。

4、维度建模流程

维度建模步骤：选择业务过程->声明粒度->确定维度->确定事实。旨在重点解决数据粒度、维度设计和事实表设计问题。

声明粒度，为业务最小活动单元或不同维度组合。以共同粒度从多个组织业务过程合并度量的事实表称为合并事实表，需要注意的是，来自多个业务过程的事实合并到合并事实表时，它们必须具有同样等级的粒度。

由于在维度建模过程中，涉及到很多概念。下面通过一个场景来，来一一说明。例如：常见的电商下单环节，每个用户提交一笔订单（仅限一个物品），就对应于一条订单记录。

03 维度建模方法论

数据仓库建模方法论可分为：维度建模、范式建模、Data Vault模型、Anchor模型。

1、维度模型

企业中最流行、也是最经典的数仓建模经典，数据仓库大师Ralph Kimball的经典著作《数据仓库工具箱维度建模权威指南第三版》一本书进行了论述。从事数据仓库/ETL/BI的同学，强烈建议买一本至少读一遍。

按数据组织类型划分可分为星型模型、雪花模型、星座模型。

（1）星型模型

星型模型主要是维表和事实表，以事实表为中心，所有维度直接关联在事实表上，呈星型分布。

图来源于Kimball《The Data Warehouse Toolkits -3rd Edition》

（2）雪花模型

雪花模型，在星型模型的基础上，维度表上又关联了其他维度表。这种模型维护成本高，性能方面也较差，所以一般不建议使用。尤其是基于hadoop体系构建数仓，减少join就是减少shuffle，性能差距会很大。

（3）星座模型

星座模型，是对星型模型的扩展延伸，多张事实表共享维度表。数仓模型建设后期，大部分维度建模都是星座模型。

2、范式模型

即实体关系（ER）模型，数据仓库之父Immon提出的，从全企业的高度设计一个3NF模型，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF。此建模方法，对建模人员的能力要求非常高。

3、Data Vault模型

DataVault由Hub（关键核心业务实体）、Link（关系）、Satellite（实体属性）三部分组成，是Dan Linstedt发起创建的一种模型方法论，它是在ER关系模型上的衍生，同时设计的出发点也是为了实现数据的整合，并非为数据决策分析直接使用。

4、Anchor模型

高度可扩展的模型，所有的扩展只是添加而不是修改，因此它将模型规范到6NF，基本变成了K-V结构模型。一般很少使用，本文不多做介绍。

04 建模规范

以维度建模为理论基础，定义一系列术语来描述建模对象。下图摘自于《阿里巴巴大数据实践之路》。

数据域

指面向业务分析，将业务过程或者维度进行抽象的集合。在划分数据域时，既能涵盖当前所有的业务需求，又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域。

业务过程

指企业的业务活动事件，如下单、支付、退款都是业务过程。请注意，业务过程是一个不可拆分的行为事件，通俗地讲，业务过程就是企业活动中的事件。

时间周期

用来明确数据统计的时间范围或者时间点，如最近30天、自然周、截至当日等。

修饰类型

是对修饰词的一种抽象划分，是从属于某个业务域的。

修饰词

指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一种修饰类型。

度量/原子指标

原子指标和度量含义相同，基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，具有明确业务含义的名词，如支付金额。

维度

维度是度量的环境，用来反映业务的一类属性，这类属性的集合构成一个维度，也可以称为实体对象。维度属于一个数据域，如地理维度（其中包括国家、地区、省以及城市等级别的内容）、时间维度（其中包括年、季、月、周、日等级别的内容）。

维度属性

维度属性隶属于一个维度，如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性。

派生指标

派生指标＝一个原子指标＋多个修饰词（可选）＋时间周期。可以理解为对原子指标业务统计范围的圈定。

数据层次的划分：

ODS：Operational Data Store，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。
它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。
CDM：Common Data Model，公共维度模型层，又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。
DWD：Data Warehouse Detail，明细数据层。
DWS：Data Warehouse Summary，汇总数据层。
ADS：Application Data Service，应用数据层。