现在数据开放成了数据治理的热点,但数据开放是没法一步到位的,每个企业都要基于实际需要走出自己的路,下面就讲讲我所经历的数据开放演化史,整个过程长达近20年,大致经历了五个阶段:
(1)数据仓库时期-应用开放模式(2004-2007)
(2)数据集市时期-数据集开放模式(2007-2014)
(3)大数据平台时期-租户开放模式(2014-2017)
(4)数据中台时期-API开放模式(2017-2021)
(5)企业级数据治理时期-统一开放模式(2021-至今)
每个时期的数据开放模式也折射出了那个时期业务对数据的真正诉求,同时带有明显的时代特征。
1、数据仓库时期-应用开放模式(2004-2007)
业务驱动:
主要是为了满足公司财务管理、市场经营,客户服务等生产经营需要,属于被动的刚性要求。
数据来源:
通过数据仓库归集业务系统的数据,加工处理后形成模型、报表和指标数据。
数据范围:
单领域级,以业务B域为主。
开放形式:
模式A-通过web门户等渠道向业务部门提供数据,后增加了自助等形式。
模式B-通过定制化取数工单的形式提供数据。
数据特点:
模式A-加工完成的应用数据,以报表、指标为主,数据粒度较粗,一次使用完成后无法再重复利用,数据灵活性低,数据安全程度高。
模式B-报表、指标及结果数据为主,一次使用完成后无法再重复利用,数据灵活性高,数据安全程度高。
开放时效:
模式A-所见即所得。
模式B-依赖于数据团队的开发速度,一般为几天到几周。
开放成本:
模式A-一次性开发投入后持续自动更新和开放,受众范围广,性价比高。
模式B-每次开放都需要定制化开发,受众范围小,性价比低,开放成本随着需求的增加线性增长。
开放组织:
经营分析室。
2、数据集市时期-数据集开放模式(2007-2014)
业务驱动:
应用开放模式以开放固定的统计数据和结果数据为主,难以满足市场快速灵活的数据分析需求,一线要求开放可再利用的原生数据和模型数据,即采取“授人以渔”模式。
数据来源:
通过数据仓库归集的业务系统的原生数据及加工处理后形成的模型数据。
数据范围:
单领域级,以业务B域为主。
开放形式:
在模式A、B基础上,新增模式C-即通过数据交换需求工单的形式提供数据集到数据集市,一线自主加工后使用。
数据特点:
原生数据或者模型数据,以细粒度清单级数据为主,数据灵活性高,数据安全管控要求高。
开放时效:
一方面依赖于数据团队的交换配置时长和审批时长,另一方面也依赖一线数据团队的二次加工速度,一般为几天到一周。
开放成本:
一次性的数据交换成本及一线的二次开发成本。
开放组织:
数据运营部。
3、大数据平台时期-租户开放模式(2014-2017)
业务驱动:
移动互联网时代开启,流量数据爆发式增长,市场竞争日趋激烈,公司一方面要求加强用户上网行为分析,进一步加快数据响应速度,另一方面也要求探索对外数据价值变现,这对数据开放支撑模式和开放范围都提出了更高要求。
数据来源:
通过大数据平台归集的业务系统的原始数据及加工处理后形成的模型数据。
数据范围:
多领域,包括B域规模数据,O域高价值数据(DPI,位置等),M域个别数据。
开放形式:
在模式A、B及C基础上,新增模式D-即大数据租户的开放形式,相对于数据集市,大数据租户不仅可以授权开放,省去了数据交换的环节,而且开通的速度和灵活性大幅增加,这让“授人以渔”的开放模式逐步普及,数据租户开始百花齐放。
数据特点:
原生数据或者模型数据,以细粒度清单级数据为主,数据安全管控要求高,数据灵活性高。
开放时效:
所见即所得。
开放成本:
由于要直接给业务人员使用,开放数据的加工成本和解释成本很高。
开放组织:
大数据中心。
4、数据中台时期-API开放模式(2017-2021)
业务驱动:
针对数据开放运营中暴露的业务场景理解不深、能力无法沉淀和复用、开放过程无法掌控、开放效果无法评估、资源消耗过大,安全风险较高等问题,要求优化数据开放模式,提升数据开放的效率和效益。
数据来源:
在原来基础上,减少了原生数据的开放,加强二次加工后的数据模型的开放比例。
数据范围:
范围和类别基本不变,但基于业务需要不断丰富原有数据的属性和质量。
开放形式:
在模式A、B、C及D基础上,新增模式E-即API的开放形式,并对API进行闭环运营。
数据特点:
以模型数据及统计数据为主,时效性强、业务价值高、可解释性强,安全性较高。
开放时效:
所见即所得。
开放成本:
API封装需要一定的开发周期,需求方对接的开发成本较高。
开放组织:
大数据中心。
5、企业级数据治理时期-统一开放模式(2021-至今)
业务驱动:
数字化转型要求公司实施流程重构,实现全局流程最优,这就要求建立企业级数据治理体系,实现公司全域数据的贯通、采集和开放。
数据来源:
通过数据湖归集的业务系统的原始数据及加工处理后形成的数仓模型数据。
数据范围:
全领域,BOM全域数据,全面的跨域开放。
开放形式:
整合C、D、E三种开放模式,打造统一的数据目录和开放流程,通过数据地图提供一站式的针对各类开放类型的数据订阅开放服务,确保一致的开放体验。
数据特点:
原生数据+模型数据为主,业务价值高、可解释性强。
开放时效:
明确C、D、E的开放服务承诺并进行闭环运营。
开放成本:
通过平台化、集约化、标准化、自助化推进开放成本降低。
开放组织:
企业数据管理部牵头,明确数据拥有方、数据申请方,安全管理方等的职责。
从21世纪初数据仓库出现到现在已经过去近20年,数据开放的形式也在不断演化,不同的开放形式其实适配了不同领域数据分析的要求,在同一个公司,不同开放形式也往往同时存在,比如我所在的公司,ABCDE五种开放模式就同时存在。
要承认,模式A和B仍然是大多数公司的开放现状,但按照数据开放最新的定义,A和B甚至不能叫作数据开放,因为其仅能为特定应用目的服务,很难二次利用,流动起来也没多大价值,因此,一个公司报表和取数做的再多,也不代表数据开放水平和利用水平有多高。
相应的,C、D和E是更具价值的开放形式,但对这些原生数据的开采利用门槛会高很多,需要公司组织、机制、流程和平台的保障。
比如数据首先要找得到,读得懂,这就对公司的数据架构管理水平提出很高要求,至少要建立基本的数据目录和数据标准,又比如数据开放出去需要有人会用,这就对公司数据需求方的技术能力提出要求,再比如数据开放出去安全风险很大,这就对公司的数据安全管理能力提出更高要求,再比如要确保开放出去的数据质量,这就要求数据提供方能给出SLA承诺,所有这些,都离不开企业数据治理体系的保驾护航。
在相当长时间内,大多数公司只能将数据开放限制在特定的领域和特定的人群,这既受限于业务需要,也受制于生产关系,而数字化转型则是当前驱动数据进一步开放的催化剂。