维度和度量

时间:2025-04-13 07:26:32

维度和度量

维度:即观察数据的角度.比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察.维度是一组离散的值,比如说性别中的男和女,或者时间维度上的每一个独立的日期.因此在统计时可以将维度值相同的记录聚合在一起,然后应用聚合函数做累加/平均/最大和最小值等聚合计算.

度量:即被聚合(观察)的统计值,也就是聚合运算的结果.比如说员工数据中不同性别员工的人数,又或者说在同一年入职的员工有多少.

 

维度设计基础

维度的基本概念

       维度是维度建模的基础和灵魂.在维度建模中,将度量称为"事实",将环境描述为"维度",维度是用于分析事实所需要的多样环境.eg:在分析交易过程时,可以通过买家/卖家/商品和时间等维度描述交易发生的环境.

      维度所包含的表示维度的列,称为维度属性.维度属性是查询约束条件/分组和报表标签生成的基本来源,是数据易用性的关键.eg:在查询请求中,获取某类目的商品/正常状态的商品等,是通过约束商品类目属性和商品状态属性来实现的.

      维度使用主键标识其唯一性,主键也是确保与之相连的任何事实表之间存在引用完整性的基础.主键有两种:代理键和自然键,它们都是用于标识某维度的具体值.但代理键是不具有业务含义的键.比如商品,在ETL过程中,对于商品维表的每一行,可以生成一个唯一的代理键与之对应;商品本身的自然键可能是商品ID等.其实对于前台应用系统来说,商品ID是代理键;而对于数据仓库系统来说,商品ID则属于自然键.

维度的基本设计方法

维度的设计过程就是确定维度属性的过程,如何生成维度属性,以及所生成的维度属性的优劣,决定了维度使用的方便性,成为数据仓库易用性的关键.数据仓库的能力直接与维度属性的质量和深度成正比.

第一步:选择维度或新建维度.作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性.

第二步:确定主维表.此处的主维表一般是ODS表,直接与业务系统同步.

第三步:确定相关维表.数据仓库是业务源系统的数据整合,不同业务系统或者同一业务系统中的表之间存在关联性.根据对业务的梳理,确定哪些表和主维表存在关联关系,并选择其中的某些表用于生成维度属性.

第四步:确定维度属性.本步骤主要包括两个阶段,其中第一个阶段是从主维度表中选择维度属性或生成新的维度属性;第二个阶段是从相关维度表中选择维度属性或生成新的维度属性.