缓慢变化维 (Slowly changing dimension)

时间:2022-06-18 04:28:52

      维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。

个人感觉wiki上对缓慢变化维的定义比较详细,所以翻译此文并加入个人的观点看法。原文请参照 :https://en.wikipedia.org/wiki/Slowly_changing_dimension

Type 0:

类型0是被动的 ,如果维度值变化了它也不会有任何的操作。维度值只会保留第一次插入的值。现在很少会用到了。

Type 1:

这种方法将覆盖旧与新的数据,并因此不会跟踪历史数据。

例如表supplier

Supplier_Key

Supplier_Code

Supplier_Name

Supplier_State

123

ABC

Acme Supply Co

CA

在上面的示例中,Supplier_Code 是默认的主键,Supplier_Key 是代理键。从技术上讲,代理键不是必要的因为存在独特的主键 (Supplier_Code) 。但是,为了优化联接的性能使用整数而不是字符键 (除非中字符的密钥的字节数小于整数键中的字节数)。

假设Supplier_State从CA调整到了IL,这条记录将会被覆盖:

Supplier_Key

Supplier_Code

Supplier_Name

Supplier_State

123

ABC

Acme Supply Co

IL

类型 1 方法的缺点是在数据仓库中就没有历史记录。然而它也有优势,它很容易维护。

如果你的事实表中存在着对State的聚合计算,那就需要在status变化时重新计算。

Type 2:

假设Supplier_State从CA调整到了IL,将会新建一条递增的version。

Supplier_Key

Supplier_Code

Supplier_Name

Supplier_State

Version.

123

ABC

Acme Supply Co

CA

0

124

ABC

Acme Supply Co

IL

1

 
另外一种实现方式是增加一个生效日期段。

Supplier_Key

Supplier_Code

Supplier_Name

Supplier_State

Start_Date

End_Date

123

ABC

Acme Supply Co

CA

2001-12-1

2015-4-2

124

ABC

Acme Supply Co

IL

2015-4-3

NULL

第二行中的结束日期为NULL,用来表示当前的版本。但是更为推荐的是使用一个不可及的日期作为结束日期,比如9999-12-31。 这样可以为该字段添加索引而提高查询性能,更不用在查询的过程中替换NULL值。

使用特定的代理键(Supplier_Key )的事务可以永久的绑定在维度表中的特殊时间段内。如果你的事实表中存在着对State的聚合计算,不需要重新更新。

Type 3

此方法跟踪使用单独的列的更改来保留有限的历史记录。类型 3 保留有限的历史,因为它仅限于指定用于存储历史数据的列数。在 1 型和 2 型的原始的表结构是相同的,但类型 3 添加了额外的列。在以下示例中,一个附加的列添加到表来记录Supplier_State的原始状态 。

Supplier_Key

Supplier_Code

Supplier_Name

Previous_Supplier_State

Effective_Date

Current_Supplier_State

123

ABC

Acme Supply Co

CA

2015-4-3

IL

这个用来记录当前的和最近一次的历史记录,不能记录更早值。

Type 4

Type4是使用历史表来储存历史记录。一个表用来存储现有的数据而添加一个历史表来记录变化数据。它们使用相同的代理键。

比如上面的例子,原来的表名为Supplier,历史表为Supplier_History.

Supplier表

Supplier_Key

Supplier_Code

Supplier_Name

Supplier_State

123

ABC

Acme Supply Co

IL

Supplier_History表

Supplier_Key

Supplier_Code

Supplier_Name

Supplier_State

Create Date

123

ABC

Acme Supply Co

CA

2015-4-3

此方法类似于数据库审计表和捕获更改数据技术功能。