一、安装kettle
下载地址:community.pentaho.com/projects/data-integration/
1. 解压下载下的压缩包,如:pdi-ce-7.1.0.0-12,然后找到.bat批处理文件Spoon双击运行,运行过程中会出现命令提示符,运行成功后如下图所示;
二、配置kettle链接属性
1.主程序启动成功后可能出现如下窗口,无需理会,点击"关闭"按钮即可;
2.双击“转换”;
3.点击页签"核心对象",展开"输入"列表将"Excel输入"模块拖入右侧空白区域;
4.双击“Excel输入”模块,展开Excel输入配置界面
(1)在弹出框中选择“表格类型”为“Excel 2007 XLSX (Apache POI)”;
(2)点击“文件或目录“后的“浏览”选择需要导入的Excel表格,点击“增加”添加至选中文件列表中;
(3)单击“工作表”,在工作表页面选择“获取工作表名称”,选择相应的“可用项目”添加至“你的选择”中;
(4)单击“字段”,在字段页面点击“获取来自头部数据的字段”,(所以Excel表格最好带有列字段列名),并可以对获取的数据字段类型进行调整,可以点击“预览记录”查看数据;
5.展开"输入"列表将"表输出"模块拖入右侧空白区域;
6.双击“表输出”展开“表输出”链接配置页面;
(1)点击“数据库链接”后的“新建”按钮,展开“数据库链接”配置页面,选择相应的数据库类型,并填写数据链接属性;(我这里是用的MySQL)
7.点击“测试”,测试数据库是否链接成功,一般第一次点击"测试"按钮会出现如下错误,主要原因是缺少连接数据库的驱动(我这里是MySQL驱动),将相关数据库驱动包放入kettle安装目录下的lib文件夹内并重启kettle程序;
8.将包导入lib文件夹重启程序后再点击"测试"按钮即可看到连接成功提示(如果你相关配置参数没有写错的话),如下图
9.在“选型中”命名参数中填入“characterEncoding”,值中填入“utf8或gbk”,可以解决数据导入后中文乱码的问题;
10.单击“目标表”后面的“浏览”,在“数据库浏览器”中选择事先在数据库中建好的表;
11.将"指定数据库字段"选项框的的√打上,点击"数据库字段页签",点击"获取字段"以对比导入表和目标表的字段名是否匹配,如下图
12.按住Shift按键将两个模块依次连接起来;
13.配置好后即可进行转换,点击右侧空白处左上角的三角按钮,在弹出的对话框中点击启动按钮,如果过程顺利则模块右上角都会出现"√"图标,说明转换成功,如下图
14.如果模块右上角出现红色横杠则表示转换出错,需自行查找原因,最后一步讲转换的配置文件保存下来,单击kettle软件窗口左上角的"文件"按钮点击"另存为"选择存储位置,点击确定后弹出"转换属性"对话框,点击确定后即可保存kettle配置文件,后辍名为.ktr;