引言
众所周知,我们已经进入大数据时代,随着数据量的不断膨胀和爆炸,让我们看到“智能社会”曙光的同时,也遇到了数据的大量无序扩张、数据无法有效管理和触达等难题,并最终导致大量重复建设、数据“黑盒化”严重和无分级带来的安全隐患。
基于上面越来越显现的负面效应和公司数据增量的“一日千里”,如何对大数据进行有效治理,运用科学手段,借助IT工具将治理流程产品化、体系化显得非常迫切。本文将尝试从商业和产品而非纯技术角度回答这一命题。
为什么要进行数据治理
首先,回到问题的本身,我们为什么要进行数据治理工作?回答之前首先需理清楚一个问题,即:我们所进行的数据治理工作到底带来了什么样的收益,且该收益可以从商业角度进行逻辑阐述,而并不仅仅停留在技术层面的“炫技”。搞清楚了最终的目标,我们才能通过技术手段真正实现可度量、可持续的正向收益。
由此看来,我们需要借助商业化思维来协助我们梳理下思路和方向。那么问题来了,在纷繁复杂的商业表象和复杂的运营逻辑之下,有没有一个更加本质且简洁的法则在驱使一家公司永续前行?如果你看过《穷爸爸和富爸爸》,本书作者通过大量的故事试图告诉你一个非常简洁的致富途径,一言以蔽之,投资资产,减少负债。换句话说增加“净资产(Net Asset)”。
那么个人如此,公司亦如此。我相信所有伟大公司所做的所有战略规划,最终都是为了实现“投资资产,减少负债”或增加“净资产(Net Asset)”的终极目标。但是截止到目前,所有上市公司的财报并没有将企业数据作为资产负债表里的一项单独的量化科目对外进行发布,可见业界并没有达成统一的标准。
接下来我将尝试把此概念引入到数据治理中,从如下几方面分别分享个人见解:
元数据
什么是元数据?即关于数据的数据。虽然并不是数据本身,但作为盛放数据的“容器”,是对数据本身及背景的描述,让数据本身可以被人高效、准确地理解。根据元数据类型不同可以做如下分类:
• 业务性元数据:从业务实际运营的角度对数据进行描述,包含数据里的各个元素在实际业务场景中所代表的含义,是构建数据和商业之间关联的最重要桥梁;
• 技术性元数据:数据本身是需要有载体的,古代用卷轴或纸张。进入信息时代我们的载体主要以电子化的设备为主,而这些载体本身作为服务于数据的物理或数字实体也需要进行记录和描述,构建数据和技术的关系;
以上两种元数据统称为“直接类元数据”,这类数据主要作用是对数据本身的一种直接描述和解释,帮助将毫无意义的数据转化为信息;
• 管理性元数据:对数据的管理信息、相关归属及不同领域划分的描述;
• 安全性元数据:对数据的安全分级信息以及对应的安全等级管控口径规则的描述;
• 使用性元数据:提供对数据使用信息的描述,使用性元数据可以进一步细分为:
• 程序使用性元数据:包含其他程序对于此程序的自动化的使用;
• 用户实用性元数据:包含用户对于此数据对象的查询/引用量,使用日期等;
以上三种元数据统称为“间接类元数据”,这类数据主要作用是介绍数据对象和其他对象之间的关系,或者涉及到数据对象的背景或者周边的关联信息;
以上是对元数据本身建设时需要考虑的各方面问题。那么如果站在“资产”的角度对元数据进行数据治理呢?
我们知道数据量一旦达到海量,维护和管理数据本身将变得尤为重要。如果把数据比喻成21世纪的数字能源的话,那么如何勘探到石油,如何快速找到所需要的石油就显得尤为重要。如果元数据的信息越丰富、分类越细,对于数据对象描述越完备就能节约大量的检索成本,提升数据的整洁和规范性。如同家里的衣柜,比起乱七八糟的堆放,整洁有序且分门别类的收纳能帮助人快速找到所需要的的数据,从而提升数据的利用效率,快速找到所需要的“石油”。
小结: 元数据的维护越细、信息越全越有利于找到有价值的数据,降低利用成本,从资产角度来说就是能快速拿到有价值的资产,扩充和提升数据资产的使用率和周转率。
数据质量
数据质量作为对数据对象的品质进行管控和规范,做到事前规范和流程建立,事中品质管控,事后问题复盘和改进,形成一个对数据质量全流程PDCA的流程闭环。
业界六大标准:
数据质量是对数据这个能源进行提纯的过程,需要从不同的技术维度以及不同的业务应用场景进行监控规则的配置,一个数据只有把数据里面的“噪音”和“糟粕”去掉后,才能成为真正意义上合格的资产。
数据质量检查规则有如下类型:
• 空值校验:用于检查字段是否为空
• 值域检查:用于检查关键指标取数范围
• 规范检查:用于检查一个关键字段的字段类型和长度是否规范
• 逻辑检查:多个指标的逻辑检查
• 重复数据检查:检查一张表内的重复数据
• 及时性检查:用于检查数据上报的及时性
• 记录完整性检查:用于检查数据记录的完整性
• 引用完整性检查:用于检查数据记录的完整性
• 离群值检查:用于检查数据中一个或几个数值与其他数值相比差异较大
• 波动检查:检查数据的波动范围
• 平衡性检查:用户检查数据是否在允许范围内
越是能尽量早的发现数据质量产生的问题,将使得后续数据恢复所投入的成本及时效极大地降低,并且能逐步提高上游数据“原料”的质量,杜绝事故产生的土壤。
对于提升数据质量要从两个方面着手:
• 第 一、规范机制的建立,引入SOP,构建虚拟的数据质量委员会组织架构;
• 第 二、构建数据质量系统化平台,通过产品化、平台化的方法解决问题;
小结:数据质量的治理和管控是一个体系化的过程,既可以借助产品工具解决部分问题,也需要从整个组织上建立一系列机制,从上到下进行数据质量的治理工作。从资产角度来看是一个对数据资产进行加工和提纯的过程,能够避免一些“负资产”的混入,持续提升并维持数据资产的纯度;
数据生命周期
在实物资产里,随着时间的推移会有折旧,这在会计学里面专门有专业的方法去度量。作为数据资产来说虽然没有折旧,但我们有一个假设,即:随着时间的推移,数据的有效性价值会流失。具体会体现在资产的利用率上。时间越早的数据资产被访问或调用最终生产成数据产品的概率就越低。由此我们引入数据生命周期的概念。
对于到期的的数据资产,我们会进行软删除,且关注的用户也会被通知和触达;经过一个确认窗口期后,如果用户没有进一步的召回操作,则该数据资产会被彻底进行物理删除。
小结: 数据生命周期作为衡量数据资产的有效价值的重要手段,对于资产的“保鲜度”的度量,当生命周期终结后则该数据资产会被清理,最终做到在资源成本和数据有效性上进行平衡;
数据安全
如果把大数据作为一项公司不可或缺的核心资产,那么如何守护这项资产的安全底线将显得尤为重要。针对数据安全主要分为两类;
• 数据丢失安全风险:数据或因为外界灾害或是人为操作原因导致数据丢失;
• 数据泄露安全风险:敏感或隐私数据泄露风险;
解决数据丢失安全风险,主要思路就是“鸡蛋不放一个篮子”,主要用到核心数据冗余,跨云灾备,多中心灾备等手段;安全作为数据资产的红线需要我们格外重视,但由于本文主要介绍的是数据治理方面的内容,所以这里不做详述。
结尾
数据治理作为数据资产的一项复杂的治理工程,在各个公司最近十多年的大数据积累中已经达到了一个不得不进行管控和治理的阈值上限,可以预见数据治理作为数据资产乃至公司降本增效一个重要的手段会在不久将来显得越来越重要。