Kettle基本概念学习

一，理解开发环境与生产环境。

比如，在windows或mac下设计好流程之后，把该设计文件上传到linux集群的机器上执行。那么，在windows下进行的工作即为开发环境，任务具体在linxu机器上执行即为生产环境。

二，Kettle转换

转换包括一个或多个步骤，步骤之间通过跳(hop)来连接。跳定义了一个单向通道，允许数据从一个步骤流向另一个步骤。在Kettle中，数据的单位是行，数据流就是数据行从一个步骤到另一个步骤的移动。

步骤：是转换的基本组成部分，以图标的形式出现。如（表输入、文本文件输出）。步骤将数据写到与之相连的一个或多个输出跳，再传送到跳的另一端的步骤。这说明，跳是步骤之间带箭头的连线，其实是两个步骤之间的，被称为行集(rowset)的，数据行缓存。（行集的大小可以在转换里定义）

一个步骤的数据发送可以设置为轮流发送和复制发送；轮流发送：将数据行依次发给每一个输出跳；复制发送：将全部数据行发送给所有输出跳。（shift + 鼠标左键可以快速地新建一个跳）

在Kettle中，所有的步骤都以并发的方式执行，当转换启动后，所有的步骤都同时启动，从它们的输入跳中读取数据，并把处理过的数据写到输出跳，直到输入跳里不再有数据，就中止步骤的运行。当所有的步骤都中止了，整个转换就中止了。数据行：一个数据行是零到多个字段的集合。

三，Kettle作业

作业包括一个或多个作业项，作业项以某种顺序来执行。

作业项：与转换中的步骤类似，作业项也以图标的方式图形化展示。作业项之间可以传递结果对象（result object）。结果对象里包含了数据行，它们不是以流的方式来传递的。而是等一个作业项执行完了，再传递给下一个作业项。默认情况下，所有的作业项都是以串行的方式执行的。

作业跳：作业之间的连线称为作业跳。作业里每个作业项的不同运行结果决定了作业的不同执行路径。对作业项的运行结果判断如下：

1，无条件执行：不论上一个作业项执行成功与否，下一个作业项都会执行。标识为，黑色的连线，上面有一个锁的图标

2，当运行结果为真时执行：标识为，绿色的连线，上面有一个钩号

3，当运行结果为假时执行：标识为，红色的连线，上面有一个红色的停止图标

Kettle使用回溯算法来执行所有的作业项。即执行作业中的某条路径的某个节点时，要依次执行这个节点的所有子路径，直到没有再可以执行的子路径，就返回该节点的上一个节点，再反复该过程。

注意：在作业中定义的跳是控制流，在转换中定义的跳是数据流。

四，Kettle工具

Spoon：图形界面工具，快速设计和维护复杂的ETL工作流。

Kitchen：运行作业的命令行工具

Pan：运行转换的命令行工具

Carte：轻量级的Web服务器，用来远程执行转换或作业

五，版本命名规则

GA（General Availability）releases：稳定发布版

Release candidates：候选版本如， ...-RCxx

Milestone releases：最新的里程碑版本，里面都会有一些新功能如，...-Mxx

Nightly builds：每天的build版本、最新的版本、也是最不稳定的版本

小结：Spoon是kettle的集成开发环境，也就是说，在Spoon里面设计好作业或者转换。作业和转换可以在图形界面里执行，但是这只是在开发、测试和调试阶段。在开发完成后，需要部署到实际运行环境中，在部署阶段Spoon就很少用到了。

秒客网