kettle菜鸟学习笔记1----相关准备知识

时间:2020-12-17 14:40:48

最近导师让给师弟师妹做个关于kettle的培训,瞬间囧了,kettle我也只是简单学过,连皮毛都算不上,而且,上次使用kettle已然是去年的事了……

没办法,只好重新学习下,好在之前写了几个文档,也留下了几行代码,想想还是放到博客上,以后自己查看也比较方便。

数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。

从这个技术的名称简单理解,就是把脏的数据洗掉(丢弃),或者洗干净(修正)。

如同大象放进冰箱,一般来说数据清洗也可以分为三步:

ETL:Extract-Transform-Load这其实描述了构建数据仓库的三个环节:数据抽取、数据转换、数据装载。

但是通常认为,数据清洗指的仅仅是数据转换这一环节。

Kettle

开源的ETL工具,纯java编写。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

下载及相关使用帮助,可访问:http://community.pentaho.com/projects/data-integration/

有兴趣研究kettle源码的,可以下载kettle源码:

SVN地址:svn://source.pentaho.org/svnkettleroot

注:SVN上只有5.0及之前的版本,之后迁移到github

GIT地址:https://github.com/pentaho/pentaho-kettle/

有兴趣进行kettle二次开发的,可能会用到

在线帮助手册:http://javadoc.pentaho.com/kettle/