文件名称:*数据治理架构-数据可视化设计指南:图表设计
文件大小:521KB
文件格式:PDF
更新时间:2024-07-21 14:11:37
数据治理
8.1 *数据治理架构 图 13 描述的是*数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用这 4 个 部分. 工 作 流 管 理结构化处理 自然语言处理 数据挖掘模型 深度学习 语音识别 图像识别 视频处理 批处理引擎 流式计算引擎 数 据 质 量 数 据 安 全 数 据 血 缘 元 数 据 数据量 空值率 类型格式 特征分布 探查 编码转换 数据提取 元数据提取 提取 数据规范 数据元规范 字段规范 规范 属性错误清 洗、缺失数 据处理 数据去重 清洗 技术标签 业务标签 标签化 人/物/组织/ 时空/案件 /虚拟标识 关联 属性集成 实体融合 实体连接 数据集成 统计分析 比对碰撞 关联分析 数据挖掘 分析 预处理 标签化数据清洗 主题化 构建图谱 分析挖掘 数据知识库 数据规则库 质量规则转换规则 数据标准库 数据元 数据项 代码库 数据标签库 技术标签库 业务标签库 数据模型库 主题库 专题库 知识图谱模型库 实体关系 事件 专题库 常住人口专题库 流动人口专题库 电子档案专题库 组织机构专题库 企业信息专题库 物品信息专题库 主题库 人 物 时空 虚拟标识 组织 案件 标准库 规范化后的源数据 数据规范 Fig.13 Public security data governance architecture diagram 图 13 *数据治理架构图 (1) 数据存储:基于分布式的大数据存储平台,具有很强的存储能力和扩张能力; (2) 数据计算:这是数据治理的 主要部分,包括数据的探查、提取、清洗、转换、集成等.这些计算任务 都是基于大数据分布式的计算能力,应用 MapReduce 批处理和 spark streaming 流式处理技术,通过 scheduler 任务调度器,实现对调度任务的执行、管理与监控. 数据探查:通过对数据量、数据质量、数据特征等指标的分析来评估后续数据治理任务的工 作量; 数据提取:抽取分布在各个系统中的各种类型的源数据,提取元数据,基于深度学习的语音识别、 图像识别、视频处理技术,实现对非结构化的数据提取; 数据清洗:对缺失数据的处理,过滤掉重复相似的记录,清除值错误的数据; 数据转换:将不符合规范的数据,按照规范化的处理规则,转化成符合标准的数据,如编码统一、 格式统一、元数据统一等; 数据集成:将转化后的规范化数据进行整合,按照一定方式重新组织,如数据属性的融合、关系融 合、数据的主题化、标签化等; (3) 数据管理:对集成后的数据统一维护与管理,包括对数据质量的检测、数据安全控制、数据血缘的监 控、元素管理等. 数据质量检测:从各个维度(唯一性、准确性、完整性、合法性等)检测,并形成数据质量报告; 数据安全控制:对数据的使用与访问,进行权限的管理与控制;