一、Kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。kettle的数据抽取主要在于抽取数据,而没有考虑数据库的函数、存储过程、视图、表结构以及索引、约束等等,如果想对这些内容进行迁移,就需要通过写脚本或者更改kettle源码的方式实现了。
二、Kettle下载运行
以下是Kettle的国内镜像下载地址:
http://mirror.bit.edu.cn/pentaho/Data%20Integration/
解压后进入到Kettle目录,双击运行spoon.bat文件,出现如下界面及说明kettle成功部署。
在运行之前,我们需要把对应数据库的jar包导入到Kettle的lib目录下,比如我们需要把oracle迁移到mysql,那就需要oracle和mysql两个jar包:
这个jar包可以直接复制项目里面的,就不用纠结版本问题了。
三、Kettle批量迁移库表
1.新建作业
选择界面上的文件–新建–作业
2.新建数据库连接
由于需要将oracle迁移到mysql,所以我们要分别配置oracle和mysql两个数据库。
配置oracle数据库:
配置mysql数据库:
这里有个坑需要注意一下,就是oracle数据库本身的编码要和mysql的保持一致,同时我们需要在配置mysql连接的“选项”里面配置对应的编码,否则mysql里面导过去的表会出现乱码,且某些表可能会迁移失败造成job异常终止:
3.进行多表迁移
配置完成后,选择“工具=>向导=>复制多表向导”
在弹出框中选择源数据库和目标数据库:
点击“下一步”,在左侧选择需要导入到mysql的库表:
点击“下一步”,输入名字和存储位置:
点击“完成”,会自动生成转换过程:
此时,点击左上角的运行按钮直接执行:
运行结束后,查看执行结果的日志和作业度量是否有报错,没有报错代表迁移成功:
最后需要查看一下mysql数据库库表的数据是否一致,可以使用count语句判断,此外,如果数据库有大量?之类的字符,就要考虑数据库编码选择是否一致且mysql的编码配置是否正确了。
1 引言
在用kettle开发抽取oracle数据的脚本时,时常会出现 Error occured while trying to connect to the database 错误,但是仔细观察日志,引起这个错误的原因不尽相同。这个错误看起来很简单,但是有时候越简单的错误越没有耐心改,尤其是忙的时候,不小心填错了某个参数导致这个错误但是自己感觉没问题却跑不成功,这是最烦人的。这时候需要淡定、不妨上网查查,错误也许就可以愉快的解决了。下面给出这错误的更细节错误的不同发生情况。
2 示例
有个很简单的ktr脚本(当前kettle版本3.0.4),如下图:
表输入正常的配置信息如下:
下图 kettle安装文件目录(有jar包)的情况:
按照上述配置,ktr脚本是可以正常执行完的。
1 首先来看 缺少ojdbc jar包的错
下图是ojdbc包被删除的运行情况:
日志信息:
重点是
exception while loading class oracle.jdbc.driver.OracleDriver。 意思是加载类 oracle.jdbc.driver.OracleDriver 异常 这很有可能就是jar包出问题。
2 下面是ip地址输入错误
运行后:
日志给出的错误信息:
Io异常大概意思是:网络适配器不能建立连接。
3 数据库名错误
运行后:
日志报错的情况:
An error occurred, processing will be stopped: Error occured while trying to connect to the database
2014/11/18 23:34:40 - 表输出.0 - ERROR (version 3.0.4, build 53 from 2008/06/24 18:14:00) : Listener refused the connection with the following error:
ORA-12505, TNS:listener does not currently know of SID given in connect descriptor The Connection descriptor used by the client was:127.0.0.1:1521:orc
大概意思:监听由于下面的错误拒绝了连接:TNS(oracle 服务端和客户端通信协议)监听不知道当前的sid(数据库的唯一标示),这个sid在连接描述器中给出,使用这个描述器的客户端是127.0.0.1:1521:orc
4 端口号不正确
运行后:
日志情况:
错误与ip地址不准确一样:
5 用户名或密码错误
运行后:
用户名或者密码错误,日志信息都是如下:
大概意思是:无效的用户名或密码,登陆被拒绝
6 运行服务器没有权限访问远程数据库
从运行服务器ping 远程数据库机器ip:
从运行服务器telnet 远程数据库端口:
都是通的,但是表输出是这个 的脚本会报错:
运行后:
logon rejected 拒绝登陆。运行脚本的机器没有访问数据库的权限导致此错误。
在这里 是表输出的数据库 设置了黑白名单 而运行服务器不在它的白名单里 导致此错误
3 总结
遇到类似的此类错误,需要淡定仔细的观察日志,使用排除法,才能快速的定位并解决掉问题。