本贴只是针对小白写的一个最基本的数据采集及入库,大神勿喷
先下载kettle,下载安装包网上搜下吧,这里用的是pdi-ce-7.1.0.0-12.zip
由于是绿色版本,解压出来后直接双击data-integration目录下spoon.bat启动程序,如下图所示
一,新建作业(这里的作业指的是一个整体的服务,把数据采集和数据入库串起来),如下图
2,从左边通用里面双击1次START,2次转换并把转换改名为数据采集和数据入库,如下图所示
START:启动服务,执行顺序按照连线箭头所示
然后点击左上角的保存,保存到本地文件
二,新建数据采集服务
1,在左边步骤里搜索表输入与复制记录到结果两个组件依次双击,如下图
2,新建数据库链接,双击表输入,并在打开的窗口右上角点击新建,如下图所示,这里用oral演示
输入图片红框里的内容,点击测试,看看是否能成功链接到数据库,如下图所示则链接成功
3,编辑SQL,这里的SQL可以根据业务需要自己编写,这里为了演示直接获取SQL查询语句
可以点击预览查看是否能查询到数据
然后点击左上角的保存到本地文件,到这里数据采集服务就已经配置好了
三,新建数据入库服务
1,还是点左上角的新建转换,在步骤中依次找到下图中的组件并双击
2,双击从结果获取记录,编辑你业务需要的数据字段
这里的字段就是从数据采集获取到的,根据自己的需要选择
3,双击JSON OUT PUT,如下图所示输入
字段界面编辑你入库对应的表字段,左边是采集到的字段,右边对应你入库的字段
4,双击JavaScript,输入下图所示内容
5,双击REST CLIENT,输入你用来接受数据的接口地址,这里演示用的是java编写的
6,文本文件输出可以不用管,只是为了记录日志的
然后保存到本地文件,到这里数据入库就配置完了
四,测试
1,点击刚才配置的作业界面,点击下图所示运行按钮
2,在打开的窗口点击执行
3,下面可以看执行日志
4,接收数据的后台程序
到此,整个数据采集及数据入库就搞定了,一些复杂的运用大家后面熟悉了自己摸索吧,本人也是刚用