Kettle 基本使用
Kettle
介绍 – Kettle
基本使用
Kettle
的几个子程序的功能和启动方式
Spoon.bat:
图形界面方式启动作业和转换设计器。
Pan.bat:
命令行方式执行转换。
Kitchen.bat:
命令行方式执行作业。
Carte.bat:
启动web服务,用于
Kettle 的远程运行或集群运行。
Encr.bat:
密码加密
转换和作业
Kettle
的 Spoon 设计器用来设计转换(Transformation)和 作业(Job)。
•转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step) 。
•作业是比转换更高一级的处理流程,一个作业里包括多个作业项(Job Entry),一个作业项代表了一项工作,转换也是一个作业项。
保存作业
用户通过 Spoon
创建的转换、作业、 数据库连接等可以保存在资源库和 XML
文件中。
•
转换文件以 ktr 为扩展名,作业文件以
kjb 为扩展名
•资源库可以是各种常见的数据库。可以在
Spoon 中自动创建资源库, 资源库默认用户名和密码是admin/admin。
输入步骤简介
输入类步骤用来从外部获取数据,可以获取数据的数据源包括,文本文件(txt,
csv,
xml,json)数据库、
Excel 文件等桌面文件,自定义的数据等。对特殊数据源和应用需求可以自定义输入插件。例子生成随机数。
生成随机数:
进入spoon.bat图形界面做一个简单转换。在文件->新建->转换 建立一个转换 建立一个输入输出,输入为随机数输出为文本文件。
A;B
0.4194968782;f191a181e98d879227dd91d2148a3662
转换步骤简介
转换类步骤是对数据进行各种形式转换所用到转换类步骤是对数据进行各种形式转换所用到的步骤。例子如下增加常量,计算器。
在输入输出之间一般有一个转换的过程
转换类步骤是对数据进行各种形式转换所用到
增加常量:
在输入输出之间加入了转换 这个转换是在输入加上了增加常量在文本文件输出。
要改变生成随机数的数量那么就是右键上面图上生成随机数选择改变开始复制数量即可。
这个实际上就是开多少个线程进行这个拷贝。
计算器:
流程步骤简介
流程步骤是用来控制数据流的步骤。一般不对数据进行操作,只是控制数据流。
例子:
过滤步骤
过滤操作:
Switch/case是一个输入多个输出。
空操作相当于垃圾箱将不需要的数据或者过滤掉的记录回收。
可以看到有两个输出,满足条件的连接线上面有一个蓝色的√,不符合条件的连接线有一个红色的×。
过滤里面的选项。
生成十个随机数,将大于0.5的记录写到文本里面不符合要求的数据过滤掉即数据流到空操作。
文本文件里面得到的结果:
A
0.9267451105
0.5180969667
0.9979689951
0.5641669584
连接步骤简介
连接步骤用来将不同数据集连接到一起。
例子:内连接
连接线上面有一个i代表这不是真正的数据流,这代表为下一个步骤提供参考信息。这个流叫做信息流。内连接 得到的数据为一条记录。