文件名称:CloudETL:用于Hive的可扩展维度ETL
文件大小:15.87MB
文件格式:ZIP
更新时间:2024-05-22 01:17:47
Java
CloudETL:用于Hive的可扩展维度ETL 介绍 提取转换加载(ETL)程序将数据从源数据处理到数据仓库(DW)中。 由于数据量的快速增长,对可按需扩展的系统的需求不断增长。 最近,人们对MapReduce给予了极大的关注,它是一种用于在云环境中高度并行处理海量数据集的框架。 基于MapReduce的Hive已被提议作为DW的类似于RDBMS的系统,并提供良好且可扩展的分析功能。 但是,使用(关系)Hive进行适当的维ETL处理仍然是一个挑战。 例如,不支持缓慢更改尺寸(SCD)的概念(由于缺乏对UPDATE的支持,手动操作也非常复杂)。 为了解决这个问题,我们在这里实现了支持云的ETL框架CloudETL。 CloudETL使用Hadoop并行执行ETL执行并将数据处理到Hive中。 用户通过高级构造和转换来定义ETL过程,而不必担心MapReduce的技术细节。 CloudETL