etl工具,kettle实现了周期

时间:2022-12-29 12:57:20

  Kettle这是国外的来源ETL工具,纯java写。能Window、Linux、Unix在执行。绿色无需安装,稳定高效的数据提取。

 

业务模型: 在关系型数据库中有张非常大的数据存储表,被设计成奇偶库存储,每一个库100张一模一样的表,每张表存储1000W,自己主动切换到下一个表。现须要同步这个数据到hive中(hdfs),循环抽取这些数据。假设是抽取增量的带上增量字段(每天增量数据存储在哪个表。奇数库还是偶数库是不知道的)。

 a sqoop直接从mysqlhive,这样有些特殊字符会导致sqoop异常终止。并且这样循环对server的数据库大量取数,对server压力非常大,非常easy导致server瘫痪。

 b 使用kettle处理转换过程就没有这种问题。kettle支持分页取数据,一定程度上减轻server压力。


先看总结构图(下面版本号为5.1

etl工具,kettle实现了周期

环境变量设置

etl工具,kettle实现了周期

3 : javascript代码

 etl工具,kettle实现了周期

etl工具,kettle实现了周期

编辑内容为

var count;

count = parent_job.getVariable("V_ID");

if(count == 10){

    false;

}else{

    count++;

    parent_job.setVariable("V_ID", count);

    true;

}

4 新建转换

 etl工具,kettle实现了周期

编辑转换,内容为:

etl工具,kettle实现了周期

5  dummy  条件推断,不作改动

 etl工具,kettle实现了周期

设置循环逻辑,箭头方向和类型非常重要

etl工具,kettle实现了周期

6 运行job,測试循环。

另外附上3.2版本号的kettle循环

etl工具,kettle实现了周期

设置变量

etl工具,kettle实现了周期

设置推断条件

etl工具,kettle实现了周期

转换 表输入文件输出

etl工具,kettle实现了周期

Js推断

 etl工具,kettle实现了周期

 

 

版权声明:本文博客原创文章。博客,未经同意,不得转载。