来源:谈数据 作者:石秀峰全文共 4596 个字,建议阅读 12 分钟
在聊数据治理的需求时,经常会聊到以下问题:
我想知道企业到底有多少数据,他们都在哪里?
我想知道企业的数据哪些价值高,哪些价值低?
我想知道哪些部门经常使用数据,以及使用哪些数据?
我想知道哪些数据的采集任务会经常出现问题?
我想知道哪些数据是符合数据标准的,而哪些是非标数据?
我想知道增量数据对存储空间的影响,现有存储是否需要扩容?
我关注的数据为什么需要从多个渠道才能拿到?
我关注的数据有问题,为什么不能主动预警?
我提的一个数据需求,为什么IT响应的这么慢?
……
没错,遇到以上问题,给你的数据治理建一个“门户”就对了!今天跟大家聊一聊什么是数据门户,以及数据门户怎么建。
01 数据门户概述
门户,英文名字:Portal,多么形象、多么直观!
从这个名字上就不难看出,门户就是为你打开一个认识新世界的窗口。Portal原意是指正门、房屋的出入口,现在更多用于互联网的门户网站,是指集成了多样化内容服务的Web站点,又称为网络门户。例如,大家都熟悉的搜狐、新浪、网易、腾讯……
门户(Portal),对我而言是再熟悉不过了!早在10多年前,我作为企业门户产品经理,就与Poral结缘了。当年,SOA兴起,Portal作为SOA家族的重要成员,在企业信息化的舞台之上是一个非常耀眼的明星。不过当时国内真正意义上的企业门户产品几乎没有,统治企业级Portal应用市场的一直是国外巨头IBM和Oracle。那时候,国内一些大型的央企、国企几乎清一色的用是 IBM WebSphere Portal 和 Oracle weblogic Portal。剩下一些中小型企业,干脆把OA当做了门户去用,因为实施一套国外的门户产品真的很贵。在这个背景下,我作为产品经理带着产品团队基于开源框架研发了公司自己的企业门户产品,并且很快形成了与IBM、Oracle叫板的竞争力。这个竞争力主要三方面因素:1、成熟的框架平台,可根据用户角色,灵活配置各种“办公桌面”,诸如:公司领导桌面、部门领导桌面、员工桌面等等。2、即插即用的协同组件,例如:单点入口、统一待办、工作日程、常用功能、关键指标等等,这样的组件有大约有四五十个吧,基于这些组件可以快速构建出不同角色用户所需要的“办公桌面“(也叫:个人工作台)。3、价格低廉。(当然,除了这三点还有公司领导卓越的战略定位和市场布局)以上,让我们在激烈的行业市场竞争中,终于杀出一条血路!以至于到后来的所向披靡,鲜有对手……转眼,SOA时代就过去了,企业迎来了数字化时代。企业的信息化也从系统建设、应用集成逐步转向了数据管理、数据应用,企业门户产品似乎也渐渐淡出了人们的视野。虽然企业门户产品似乎退出了企业信息化的历史舞台,但是门户的理念却一直沿用至今,例如我们经常看到的协同门户、人力门户、财务门户、党建门户、生产门户、销售门户等等,只要按照一定的业务逻辑把相关内容(信息、链接、文件等)聚合在一起,那它就是一个门户。同样,数据治理也需要这样一个门户,它可以根据用户的角色将各类信息和内容的汇集和整合,形成用户专属的“数据工作台”,主要用于提供数据的访问、查询和分析,以及解决我们开篇提到的各类问题。根据不同的需求和功能,数据门户也可以分为以下几种类型:业务型数据门户:主要面向企业的业务用户,提供数据分析、查询、报告和决策支持等功能。学术型数据门户:主要面向学术机构和研究人员,提供科学研究数据的共享、查询和分析等功能。社交型数据门户:主要面向社会公众,提供用户生成的数据、社交数据和娱乐数据等,以及社交功能和用户互动功能。行业型数据门户:主要面向特定行业,如金融、医疗、教育等,提供行业数据的查询、分析和应用等功能。*公共数据门户:主要面向*机构和公众用户,提供*公共数据的查询、下载、分析和应用等功能。另外,按照所涉及的数据对象不同,我们经常将数据门户又分为数据资源门户和数据资产门户。顾名思义,数据资源门户是对数据资源的管理和汇集,而数据资产门户是为数据资产的管理和查询提供了统一入口。从功能上讲,两者并没有什么不同,但由于他们所涉及的数据对象不同,所以也会有一些区别,例如:数据资源门户通常是由IT部门管理的,是对企业所有数据的汇聚和整合,而数据资产门户则是针对那些对企业有价值的数据的集成,更多是为业务部门服务的,因为业务部门更清楚数据有哪些价值。数据门户作为Portal的一个专项应用,其一些核心特性和理念,始终没有改变,这些特性应该需要固化在企业的数据治理相关产品或系统中。遗憾的是,截至目前我还没有在市面上看到过让我眼前一亮的数据门户产品。聚合是Portal的最基本能力,门户不仅可以集成多种数据统计信息,还可以实现各种数据管理和使用工具的集成,以及相关功能链接的汇聚,并为用户提供统一的访问和体验。门户为协同而生,没有协同能力的门户不是好Portal!数据门户的协同能力表现在:1)可以支持团队成员之间的协作和沟通,例如共享数据、讨论、任务分配等。2)可以支持对相关数据进行评论、点赞、打分,增强用户间的互动。3)可以支持快速发起一项数据标准或对某一数据进行质量检核。数据如水,流动起来才更有活力,门户的协同能力不仅能够加速数据的流动,更能让使用它的人进行互动,实现了数据价值的跃升!数据编织能力是指将来自不同数据源的数据进行整合和处理的能力,是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。它可以将来自不同数据源的数据进行拼接、清理、转换和加工,以形成一致的数据视图和数据集。借助这个能力,企业可以快速构建起来自己的“逻辑数据湖”,即:数据在逻辑统一集中、物理不一定统一存储。
作为一种新兴的数据管理和处理方法,数据编织多次被Gartner列为数据领域10大关键技术,它改进了数据仓库和数据湖的概念,引入了一个新的架构(网络状),通过知识图谱及人工智能算法,实现数据资产的自动编目,可以将位于不同地方的数据,统一管理起来,使整个企业能够统一利用数据。这是传统“手工编目”所做不到的。数据编织之所以厉害,是因为他使用基于网络的架构而不是点对点的连接来处理数据,实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据结构。10多年前,“主动推送”就是我们Portal产品的一个主要能力,但那时候的“主动推送”做的还比较笨重,只是通过需求调研将不同角色用户所感兴趣的信息、待办事项、通知消息、统计数据、常用链接等相关信息聚合在一起,形成一个特定的页面,我们称其为“办公桌面”。尽管当时还远远做不到现在的所谓“千人千面”,但这种能力也可以帮助用户更快地获取到自己感兴趣的信息和他需要处理的事项,提升了用户体验。
当然,现在的推荐算法已经非常成熟了。首先,通过“OneID”实现用户身份ID的统一;然后通过埋点技术可以收集大量的用户行为和偏好数据;最后根据用户的画像和偏好模型,运用机器学习和推荐算法,自动推荐相关的信息和内容。数据门户就可以利用这种能力更好的为用户提供服务,改变传统“人找数据”的模式,实现“数据找人”,提升用户粘性和体验。
看完了“数据门户的特征”这一部分内容,相信,你对数据门户应该有一定了解和认知了,下面说一说该如何建设一个数据门户。其实,根据Portal的技术发展,实际上应该有两种建设方法:一种是上边我们提到的新型数据门户,一种我们姑且称之为传统数据门户。实际上,实施一个数据门户和做个数据资产管理项目或数仓项目从方法论上讲没有太大区别,基本上“三板斧”就搞定。首先是需求调研,通过对企业内部各部门的数据需求进行调研和分析,了解各部门的数据资产、数据访问权限、数据质量等情况,明确数据共享和使用需求。其次是数据盘点,采用“自上而下和自下而上”相结合的数据资产盘点方式,开展对各部门、各信息系统数据的全面盘点,从而摸清楚企业各类数据资产的数据体量、存储位置、归口部门、主要作用等信息。当然,在数据盘点过程中,还涉及数据的分类分级、数据资产的确权认责、数据的共享条件、数据的管理方式等等问题。这里就不一一阐述了。有兴趣可以看下之前我写的这篇文章《企业数据资产到底怎么盘?》根据数据盘点结果,完成数据资产概要信息的登记,登记的内容主要包含三个方面的数据属性信息。第一,业务属性,例如:数据资产名称,所属数据域,所属数据分类、数据资产描述等;第二,技术属性,数据资产位置(哪个系统,那张表),数据资产类型(结构化数据/非结构化数据),数据资产方式(数据库/文件/API接口)等;第三,管理属性,数据资产所有者(归口部门),数据资产管理员,数据资产上架时间,数据资产共享条件等。数据资产登记的过程,其实就是我们所说的数据编目,这个过程通过人工和自动化手段完成。依据笔者的观察,目前国内市场的大部分数据管理系统的数据编目大多数还是手动编目的方式,而借助AI算法、机器学习、知识图谱进行自动化编目的产品更多的还停留在概念或研制阶段,只有个别产品用来辅助人工编目。数据目录提供了数据访问权限管理和控制能力,确保数据的安全性和合规性,同时也要考虑数据的共享和开放,而数据门户为数据的开放共享提供了“一扇窗”。数据共享:数据门户提供了数据的查询服务,可以根据“关键字”实现对相关数据的全文检索;数据门户提供了数据推荐能力,可根据用户角色/岗位进行对相关数据资产进行推荐,以促进数据资产的共享和使用。数据应用:数据门户聚合了各种数据查询、探查、建模和分析的工具,以及这些功能的使用手册、帮助说明以及实操视频,掌握工具的使用可以让数据分析和应用事半功倍。数据门户提供了对数据使用情况的统计分析,可以从组织、部门、用户、数据分类等多个维度对数据的使用情况进行分析,支持企业设置数据使用情况统计指标,以推动数据的使用。新型数据门户和传统门户的建设方法基本上没有太大差别。新型数据门户更多是将Portal技术和AI技术相结合,为用户提供更加智能的应用场景。例如:利用AI技术增强数据门户的聚合能力,数据自动汇聚、自动编目,自动更新;利用AI技术增强数据门户的协同能力,试想一下:如果我们的数据门户中引入了ChatGPT-4会发生什么?利用AI技术增强数据门户的推荐能力,根据个人偏好主动推送相关数据,实现“千人千面”;利用AI技术增强对数据的管理和处理能力,让更多的数据资源转化的数据资产,让数据门户更有价值;利用AI技术增强对数据的挖掘和应用能力,为不同用户直观展示其关心的数据,实现数据驱动业务。
可能有人会说,后边的两条是对数据本身能力的增强,而不是对数据门户能力的增强。这其实并不冲突,我们通过门户去共享数据资产、展示分析图表、沟通数据问题,如果有数据不知道怎么用或者数据质量有问题,挖掘不出数据的价值。那么,数据门户也就失去了它的意义了!
AI、门户、治理是相互协同、互为补充的。通过治理提升了数据质量,AI的加持增强了分析和治理能力,然后在“门户”中进行智能化推荐、个性化展示、互动和协作,门户为 “让数据用起来” 提供了一个入口、一闪窗!AI之于数据,有太多的想象空间啦。未来会究竟发生什么,我们不得而知,但一定可期!!!