文件名称:数据服务模块-数据可视化设计指南:图表设计
文件大小:521KB
文件格式:PDF
更新时间:2024-07-21 14:11:36
数据治理
7.2 数据治理模块 数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然 后进行数据集成,治理完成后的数据汇聚到数据共享中心中. 数据清洗是对数据进行审查和校验,过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换,并 进行清洗前后的数据一致性检查,保证清洗结果集的质量.数据清洗的方法除了以上介绍的几种基本方法以外, 该模型还支持自定义清洗规则,数据清洗规则是由业务需求人员与开发人员配合制定数据处理逻辑,经过这些 规则进行数据清洗后,保证数据的一致性、准确性和规范性更能满足业务上的需求. 数据治理技术及基本方法在前面几节进行了详细介绍. 7.3 数据服务模块 数据服务模块以数据共享中心构建知识图谱为起点,早在 2006 年,Web 创始人 Berners-Lee 就提出数据链 接的思想,随后掀起了语义网络的狂潮[87],知识图谱在此基础上形成.但是直到 2012 年,知识图谱的概念才被谷 歌正式提出[88].知识图谱是由节点和边组成的巨型知识网络,节点代表实体,边代表实体之间的关系,每个实体 还由(key-value)键值对来描述实体的内在特性.新的知识图谱中还增加了实体与实体之间的事件,即边表示关 系或事件.杨玉基等人提出用四步法来构建知识图谱,即领域本体构建、众包半自动语义标注、外源数据补全、 信息抽取[89]. 数据服务模块基于知识图谱面向不同用户提供多渠道、多维度的数据服务,面向使用者提供模型管理、智 能发现、模型探索、数据探索、数据订阅等数据服务,面向专业人员提供挖掘分析、专家建模等智能数据服务. 模型管理主要是对实体、关系进行编辑和处理;智能发现是根据日志等元信息,将配置到系统的数据源反向推 导出物理模型关系,将多个异构物理模型归一到同一实体后自动生成语义层的业务视图;模型探索是支持关键 词搜索实体、关系等,将搜索结果拖拽到画布探索实体之间以及关系之间的核对关系,用户在了解业务模型的 同时,也可以了解到业务模型背后对应的物理模型,以及物理数据表的生产血缘关系;数据探索是对业务模型视 图可以进行知识问答式的搜索,在路径的任意节点上设置标签的条件,再在另外的节点上设定对应标签的答案, 使得用户对数据的业务关系充分地了解;数据订阅满足外部其他平台对本平台各类数据的需求,通过对不同用 户下放的不同权限,再结合数据资源目录服务的开放数据内容,为外部用户提供数据订阅/退订流程,并通过资 源总线服务完成 终的数据投递. 领域专家们(人类智能,HI)可以根据知识图谱中的实体、关系、属性等核心数据进行建模,并进行高层次的 数据挖掘分析和加工,可以同知识图谱、数据分析与加工模块(AI)和组织智能(OI)相互交互和协同,实现 HAO 智能的大智慧问题求解[86].吴信东等人于 2008 年所编著的《数据挖掘十大算法》一书详细地介绍了用途 广、 影响 大的 10 种数据挖掘算法[90],并于 2018 年,吴信东等人基于分布式计算对大数据分析的两种算法—— MapReduce 与 Spark 从背景、原理以及应用场景进行了具体的分析与比较[91].HACE 定理的大数据处理框架中 (如图 1 所示),第 1 层架构解决了流数据存储的计算问题,第 2 层架构考虑了隐私保护和模式发现,第 3 层架构主 要描述复杂的数据挖掘算法,HACE 定理在数据服务模块如关联分析与计算以及数据挖掘得到了广泛应用[8]; 自然语言处理的应用更加广泛,例如我们平时使用的私人助手 Siri 以及出行助手等,都能给人们带来更加便利 的服务.HAO 治理模型涵盖了数据治理的全过程,从数据的采集、交换、清洗、规范、集成、应用等融为一体, 完成了智能数据治理. HAO 智能的核心是在大数据问题环境下,用人机协同来实现组织智能(HI+AI+OI),所以数据治理功能的模 块化和交互的灵活性是上面提到的 HAO 治理模型 6 个设计准则中的两个.