【实验目的】
利用Kettle的“去除重复记录”组件,实现去除重复数据。
【实验原理】
通过“阻塞数据直到步骤都完成”对多张表格的外键进行排序,然后通过“记录集连接”进行多表连接,再通过“字段选择”选择合适的字段输出到表格。
【实验步骤】
一、创建转换
1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径
2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为excel input,Sort rows,Unique rows,excel writer。组件支持自定义命名。
二、可视化编程
1. “Excel输入”的配置:
2.“排序记录”的配置:
3.“去除重复记录”的配置:
4.“排序记录 2”配置:
5.“Microsoft Excel 输出”配置:
三.运行程序:
点击开始运行程序,在弹出的对话框中,选择运行该程序。
运行结果:
四.实验结果
输入数据
(1) 课程信息表.
输出数据:
“Microsoft Excel 输出”输出数据: