由于企业的业务系统信息化的分阶段建设、以各自业务为导向等原因,每个业务都积累自身的数据,形成一定的数据孤岛。而数字化转型的一个核心就是以数据为抓手来打通各个不同的业务,以数据驱动辅助经验主导的流程来辅助业务,因此需要企业建成一个统一的、可共享的数据平台,推进建设内部业务的统一数据化,为企业管理和决策提供数据基础与分析能力保障 ,帮助企业落地数字化战略。建设企业统一的数据平台需要考虑哪些问题?本文进行介绍。
— 企业级统一数据平台整体建设思路—
企业级数据平台指的是支撑企业的数字化业务创新和运营的技术基础平台,提供数据驱动、精准决策的全方位技术支撑。
-
整体要求
从公司整体的数字化战略的视角来看,数据平台通过统一的数据整合、存储、计算和服务能力,可以打破企业内部壁垒,服务于企业内的不同业务部门和组织部门,将无形的业务流程自动化和数据化。为了达到既定的战略要求,企业数据平台需要实现几个必要的统一,主要包括:
-
统一整合企业内、外部各类业务系统数据,尽量做到“应存尽存、能收则收、层级化管理”;
-
统一管理企业内外部数据资产,形成企业统一数据治理标准及规范,落实数据安全管控,将数据资产化和业务化,实现“数据既能管得住,也能立即用”;
-
统一支撑企业以及各个组织部门、子公司等创新型应用和业务,提供包括实时计算、离线计算、机器学习等在内的多样化的计算能力,辅助按需提供的算力和数据资产,从而发现数据的业务价值,通过数据驱动来推动经营优化、创新业务探索、风险控制等新业务,推动企业数字化转型。
-
数据架构的设计
数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI) 应用程序的基础。
数据架构的设计应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义相应的数据模型以及支持它的底层数据结构。这些设计通常有助于满足业务需求,例如报告或数据科学计划。
随着物联网 (IoT) 等新兴技术的出现,新的数据源不断涌现,良好的数据架构可以确保数据易于管理且具有利用价值,从而支持数据生命周期管理。更具体地说,它可以避免冗余数据存储,通过清理和重复数据删除来提高数据质量,并支持新的应用程序。现代数据架构还提供了跨域(例如部门或地理区域之间)集成数据的机制,打破了数据孤岛,因而消除了将所有数据存储在同一地方所带来的巨大复杂性。
现代数据架构经常利用云平台来管理和处理数据。虽然它的成本更高,但它的计算可扩展性使重要数据处理任务能够快速完成。存储可扩展性还有助于应对不断增长的数据量,并确保所有相关数据都可用,以提高训练 AI 应用程序的质量。
现代数据架构的七大特征:
-
云原生和支持云,让数据架构能够从云技术的弹性扩展和高可用性中受益。
-
强大、可扩展且可移植的数据管道,将智能工作流、认知分析和实时集成结合在一个框架中。
-
无缝数据集成,使用标准 API 接口连接到原有应用程序。
-
实时数据支持,包括验证、分类、管理和治理。
-
解耦且可扩展,因此服务之间没有依赖关系,而且开放标准支持互操作性。
-
多租户支持能力
-
经过优化,在成本和简单性之间取得平衡。
— 企业级统一数据平台的五大能力要求—
起初,数据平台技术(国内约是2010年后)的定位是储存原始格式数据的大数据平台,可容纳结构化、半结构化、非结构化及二进制的数据。随着大数据技术的融合发展,数据平台的边界不断扩展,内涵也发生了变化,逐步形成了5大能力要求,如下图所示:
企业数据平台的5大核心能力要求主要包括:
-
数据多源异构:数据平台能够整合和集成多源异构的海量数据,支持结构化、半结构化、非结构化等各种数据模型,这样就能够保证即使后期业务有了新的需求,数据平台也能够即时的完成数据接入、整合和最终的服务,在技术上也能够支撑企业落地“应存尽存、能收则收”的数据战略。
-
数据统一的存储与管理:随着分布式存储技术的快速发展,提供统一的数据存储服务已经成为业内的共识,在实现方式上可以是物理上的统一(所有数据通过物理复制到企业数据平台上)或逻辑上的统一(部分数据仍然在其他数据存储中,但可以通过元数据管理、数据联邦等方式实现逻辑的存储管理)。基于统一的数据存储和管理能力,企业才能根本上解决了“数据孤岛”的打通,并且往上对接各种计算引擎和数据管理工具,从而为后续的数据资产化和服务化打好基础。
-
多范式计算:数据资源自身能够提供的价值有限,而海量数据通过多维度的碰撞、关联分析或智能化学习后,隐藏在数据里面的离散价值就可以被发现和挖掘出来,从而将数据变成有价值的资产。由于支撑业务的多样性,企业级数据平台需要支持多种计算引擎,满足不同数据计算分析需求,支持离线计算、实施计算、图计算、机器学习等多种计算范式,让不同的开发者和分析师可以按照他们的技能领域和业务范畴来选择合适的计算工具或引擎,让数据被真正的开发和利用起来。
-
数据服务多样化:前面提到的数据整合、存储和计算都属于基础的数据平台技术能力,而数据服务就是衔接数据平台和业务之间的关键要素,或者说是数据平台为业务和组织生产的关键产品。企业的产品是企业实现经营性目标的核心交付方式,也是与用户建立黏性的关键介质;同样的类比也适合于数据平台,因此作为数据平台产品的各种数据服务也是保证数据平台成功的关键要素,要做到质量高、品类丰富、安全合规和服务方式多样化,可支撑各种业务领域。目前企业内主要的数据服务形式包括SQL、API、数据指标、数据标签和数据模型等。
-
应用广泛:目前各个行业的企业数据应用发展如火如荼,如面向企业经营分析的各类数据分析产品,面向*管理的数据大屏、“健康码”等应用,以及面向消费者业务的数据决策类产品等,应用的创新速度超过数据平台本身。衡量一个数据平台的成功与否,其最主要的KPI指标应该也是“该数据平台支撑的成功的数据应用的数量和业务效果”。数据平台和数据应用平台可以分开建设,也可以统一建设。在统一建设的模式下,企业数据平台除了给业务应用提供数据资源或数据资产外,还可以为数据应用提供资源调度和生命周期管理能力,这样不仅可以提升应用的性能,还可以提供弹性伸缩、资源隔离等应用所需的基础支撑,从而可以让数据应用更加健壮和高效。
— 企业级统一数据平台的设计考量—
为了能够帮助企业快速的支撑业务的需求,更好的满足数字应用的开发和运营,企业数据平台应该是以PaaS平台来对内对外提供服务能力,而不再应该是面向运维和管理的IaaS方式。而在PaaS构建的过程中,为了能够适应未来企业的灵活、快速变化的业务需求,企业数据平台需要遵从如下的几个主要设计考量:
-
以数据为中心,业务导向
在总体的设计思路上,我们应该从传统的以资源为中心,以运维便利性作为首要考量因素,转变为以数据为中心,以业务作为导向,将可以加速业务创新速度的技术作为更优先的指标。数据、应用和智能是数字化的三大核心原料,我们需要在一个PaaS平台上提供包括数据分析、应用开发和智能建模等在内的完整的工具链,并开放给尽可能多的使用者来尝试创新。
-
云原生
传统的虚拟化技术因为有很大的技术开销,启动和关闭速度慢,扩缩容能力弱,因此并不适合包括微服务、分布式系统在内的新一代工作负载。容器技术有效解决了相关问题,可以提高数据中心的资源使用率的同时,能够给微服务提供更好的弹性和扩展能力。而通过技术创新,容器技术同样可以支持包括分布式数据库在内的复杂业务系统,同时还可以提供多租户、自动扩展、自动化冗余等能力,这对业务开发者来说进一步降低了运维的难度。因此,容器化技术是未来。
-
融合互通
约瑟夫.熊彼特曾经指出,创新是生产要素的重组。重组可能主要做加法,做融合或者通用化;也可能是做减法,做分离和专用化。融合带来通用和低成本,但是会有一些冗余;分离的优势是高性能和特定场景的能力,但是应用场景少、成本高。融合追求大众普适,分离面向专业群体。
数字化基础设施的用户是面向企业或组织内广泛的应用开发者、数据建模人员、以及业务人员,所有处在业务一线的人员都是数据生态的重要人员。因此在设计数字化基础设施的时候,我们需要充分考虑通用性和低成本,这样才能更好的服务于目标对象。
从技术的角度来分析,应用可能会运行在公有云、私有云、边缘端等任何可能有计算能力的地方,而数据也会随着业务而沉淀,因此我们在设计的时候就需要考虑应用的跨云能力、数据的互通互联、云端和边缘端协同等,从而拒绝技术烟囱,减少各种可能的孤岛问题。
-
层次化设计
在架构设计上,需要从传统的以应用驱动开发的方式形成的烟囱式技术栈,转变为追求服务共享复用思路的层次化设计。
下图是企业数据平台的设计思路,做的一个概要的设计参考架构,它不仅包含了技术底层,还有数据业务中心层和业务服务层。
最上层是直接服务于业务的服务层,提供App、web等的之间访问和交互能力;中间层是企业的数据业务中心,也是最核心的部分,它包含企业沉淀的各种有效的业务服务和数据服务,业务按照DDD的原则进行服务划分,数据都做了有效的建模形成数据资产,这可能包含数据仓库、数据湖或者数据中台的建设;而最底层应该是云基础平台,提供包括大数据、AI、Kubernetes、容器、数据库、计算、网络、安全等在内的技术能力。
— 小结—
本文介绍了企业数字化转型的三层业务模式,给出了平台建设的整体思路,以及一些基础能力要求和建设上的考量。相信大家通过阅读本文,对企业数字化建设已经有了基础概念。那么面对纷繁复杂的数据来源,多元化的数据结构,企业数据平台建设该从何处入手呢?哪个数据管理架构适合自己的企业呢?下一篇将介绍数据仓库、数据集市、数据湖。