今天听某大学的校长讲课,说做学问要严谨,虽然咱们干数据的不是做学问,但很多工作如果不严谨一点,的确也是不行的,比如画一张数据治理体系框架图。
我理想中的数据治理体系框架图应该是业务导向、概念清晰、逻辑合理、边界清晰且能与实践很好的映射,但当前业界给出的各种数据治理或数据管理框架图离以上要求还是有些距离。因此干脆自己画了一张,姑且就叫作傅一平的“一体两翼“数据治理体系框架,具体见下图。同时我把自己能找到的其它框架图都列在文后,方便大家借鉴参考。
“一体”:就是中间的数据价值流,体现了数据从源端业务流产生,然后归集进入数据底座,最后再服务数据消费的过程。
“左翼”:指数据管理活动(蓝色框),数据管理活动实现数据价值流,达成业务目标。
”右翼“:指数据治理活动(黄色框),数据治理活动确保数据能被管理,你可以理解为履行数据领域的*职能,是对数据管理活动的管理,包括立法职能(定义策略、标准和企业架构)、司法职能(问题管理和升级)和执行职能(保护和服务、管理责任)。
主要包括三部分内容:源端系统、数据底座和数据消费。
源端系统:数据起源于业务流及其承载的系统,这里打破了传统数据管理架构图只局限在OLAP领域的画法,将OLTP也包括进来,因为数据治理一定是打穿所有业务系统和数据系统的。很多数据问题要从源头业务系统去解决(这里示例了BOMS四个领域的业务流),主数据、参考数据等数据管理活动其实就是为了解决业务系统数据一致性的问题提出来的,它们不是数据湖、数据中台的产物。
数据底座:包含了数据湖和数据中台,主要负责数据存储和数据加工,实现将数据转化成信息和知识的目标。
数据消费:包含了精准营销、精细服务、精益网运、精确管理及对外注智赋能五大部分,当然每个行业各有不同。
数据管理活动是为了交付、控制、保护并提升数据和信息资产的价值的实践活动,在参考了DAMA2等基础上,我抛弃了一些比较技术化的数据管理活动说法,结合自己的理解给出12个数据管理活动,它们渗透于整个数据价值流,一共分成三种类型。
第一类是专门围绕源端系统开展的数据管理活动,包括数据架构、主数据、参考数据、数据记录及数据建模,其中数据架构、主数据及参考数据是贯通了多个业务流的,体现了顶层设计和一致性的要求,数据记录和数据建模是基于领域的业务活动。
第二类是围绕数据底座开展的数据管理活动,包括数据归集、数据建模及数据开放,这里的数据建模更多是数仓建模和数据挖掘,强调将数据转化成信息和知识。
第三类是全局性的数据管理管理活动,包括元数据,数据质量、数据安全、数据评估等等,这些活动属于保障性数据管理活动,覆盖整个数据价值流,因此是一通到底。
数据治理即对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动,很多人对这个定义还是不太理解,这里索性把主要的数据治理活动都列出来,分别是战略管理、政策原则、组织文化、制度规范、监督控制、变革管理、项目推动、问题管理及法规遵从。”右翼“的数据治理活动对”左翼“的数据管理活动施加控制和影响。
有时大家会对元数据管理是否属于治理活动产生困惑?这是用词不严谨造成的,从字面上讲,元数据管理既可以理解成元数据管理活动,也能理解成元数据治理活动,如果理解成元数据治理活动,那么它一定是前面列出的九种治理活动的一种,比如解决元数据管理的规范化问题,统筹元数据变革项目等等。
“一体两翼”数据治理体系框架是当前我能想到的同时体现数据价值流,数据管理活动,数据治理活动三者实体和关系的表达方法,希望能在确保读得懂的前提下保持一定的严谨性,同时澄清一些概念。
下面也列出了DAMA、华为数据之道、数据资产管理实践白皮书,阿里数据中台等相关架构图,大家可以学习比较,”一体两翼”数据治理框架很多灵感都来自于这些框架。
DAMA车轮图定义了数据管理知识领域,它将数据治理放在数据管理活动的中心,因为治理是实现功能内部一致性和功能之间平衡所必需的。
大多数组织在开始管理数据之前都没有定义完整的数据管理战略。相反,通常都是在不太理想的条件下朝着这种能力发展,彼得·艾肯(Peter Aiken)的框架中使用DMBOK知识领域来描述演化的四个阶段情况。
上面的Aiken的金字塔中描述了数据管理活动演进的路径,另一种方法是探索它们之间的依赖关系,该框架由苏伊格恩斯(Sue Geuens)开发。
该方案借鉴了体系架构概念,呈现了DAMA知识领域之间的一组关系。
为了确保基本的活动是以规范的方式执行,许多组织以数据治理的形式建立了监督职能,数据治理范围内的应用活动围绕着数据管理生命周期内的各项核心活动进行,这就成了另一种形式的DAMA车轮图,这张图其实是不错的,但技术概念太多,对外的解释成本很高。
该框架给我很大的启示是以业务流的方式体现数据管理活动与业务之间的关系。
这张图将数据价值流跟数据管理活动结合起来,但遗憾的是没有体现数据治理的相关活动及关系。
这张框架图描述比较简单,相互之间的关系还不够清晰。
网上最多的一张架构图,体现了数据价值流和数据管理活动,但数据治理基本没有体现。