数据预处理之文件转换kettle:去除重复的数据

时间:2024-03-16 09:37:07

【实验目的】

利用Kettle去除重复记录组件,实现去除重复数据。

【实验原理】

通过阻塞数据直到步骤都完成对多张表格的外键进行排序,然后通过记录集连接进行多表连接,再通过字段选择选择合适的字段输出到表格。

【实验步骤】

一、创建转换

1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径

数据预处理之文件转换kettle:去除重复的数据

2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为excel input,Sort rows,Unique rows,excel writer。组件支持自定义命名。

 

 数据预处理之文件转换kettle:去除重复的数据

二、可视化编程

1. “Excel输入”的配置:

数据预处理之文件转换kettle:去除重复的数据

 数据预处理之文件转换kettle:去除重复的数据

 数据预处理之文件转换kettle:去除重复的数据

 2.“排序记录”的配置:

数据预处理之文件转换kettle:去除重复的数据

3.“去除重复记录”的配置:

 数据预处理之文件转换kettle:去除重复的数据

 

4.“排序记录 2”配置:

数据预处理之文件转换kettle:去除重复的数据

 5.“Microsoft Excel 输出”配置:

数据预处理之文件转换kettle:去除重复的数据

 数据预处理之文件转换kettle:去除重复的数据

 

三.运行程序:

点击开始运行程序,在弹出的对话框中,选择运行该程序。

数据预处理之文件转换kettle:去除重复的数据

 运行结果:

数据预处理之文件转换kettle:去除重复的数据

四.实验结果

输入数据

(1) 课程信息表.

数据预处理之文件转换kettle:去除重复的数据

 

输出数据:

“Microsoft Excel 输出”输出数据:

数据预处理之文件转换kettle:去除重复的数据