文件名称:数据复制技术-fmcos通用技术手册(上海复旦微电子)
文件大小:242KB
文件格式:PDF
更新时间:2024-07-05 12:28:34
分布式 ETL 大数据
2.2 更新策略 设 Data(i)为 DDW 中 LDW 上发生更新的数据,Data(1), Data(2),⋯⋯Data(j)为 Data(i)在 LWD1,LDW2,⋯⋯ ,LDw 上的数据副本(其中i隹(1, ))。DDW 中数据的更新有两种情 况 :一点更新多点和一点更新一点。在两种更新策略当中,后者 是前者的特例 。 (1)一对多更新 用 LDW 的数据来更新其它多个 LDW 的数据 ,数据和数据的副本是一对多的关系。LDW 发生数据 更新 Data(i),Data(i)在其它 LDW 中存在数据副本 Data(1), Data(2),⋯⋯Data(/),一点更新多点 ,即通过 LDW问的通讯和 数据传输使 Data(1)=Data(2)=Data(3)⋯ ⋯一 Data( )= Data(i)。 (2)一对一更新 一点更新一点为一点更新多点的特例, 即用 LDW 的数据来更新另外一个 LDW(记为 LDW ,其中 (1, ))上的数据,数据和数据的副本是一对一的关系。LDW 发生数据更新 Data(i),Data(i)在 LDW 中存在数据副本 Data (k),一点更新一点,即通过 LDW 问的通信和数据传输使 Data (J)=Data(i)。 2.3 ETLM 元数据的设计 分布式 ETL中的元数据可以协调不同地域 LDW 中的数据 结构,帮助数据仓库取得一致性和相容性E4 3。ETLM体系结构 中元数据包括 :ETL的元数据和 M的元数据。针对 M模块中数 据更新的不同情况建立不同的元数据,记录不同的数据更新情 况和更新策略,这些元数据都存储在元数据库中。元数据的数 据结构如表 1所示。 表 1 M模块元数据的数据结构 2.4 数据复制技术 在分布式数据库系统中,广泛使用了数据复制技术进行数 据复制和传输。数据复制是指在分布式数据库系统的多个数据 库间拷贝和维护数据库对象的过程,就是将数据库中的数据拷 贝到另外一个或多个不同的物理站点上 ,从而保持源数据库与 目标数据库中指定数据 的一致性 j。数据复制服务器有 出版 服务器、分发服务器和订阅服务器三部分组成 。“出版订购” 模型如图4所示。 I堂竖! ! 兰 竺兰 !! 竺 ! 兰 l 图4 “出版订购”模型 本文将数据复制技术应用到分布式 ETL的数据更新策略 中来维护各个 LDW间的数据一致性,保证数据高效、准确地传 输到LDW中。DW通常是一个信息本身相对稳定的数据集合, 某个数据进入DW以后,一般很少进行修改,更多的是对信息进 行查询操作。因此,数据复制技术在 DDW 中应用时应添加一