ETL简介
用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 常用的ETL工具,比如Sqoop,DataX,Kettle等。 具体问题:
- 有规律格式的文件数据,例如以 “|”分隔的数据。 如何加载数据库?
- 数据库中数据导出成文件。如有固定格式文件,Excle,Csv格式文件?
- 多个不同数据库之间数据如何迁移?
Kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 提供一个图形化的工作环境来描述数据逻辑的处理,可以让我们图形化方式开发。
- Kettle源码下载地址:https://github.com/pentaho/pentaho-kettle
- Kettle软件下载地址: https://sourceforge.net/projects/pentaho/files/Data%20Integration
- kettle-plugin源码下载地址: https://gitee.com/nivalsoul/kettlePlugins#%E8%87%AA%E5%AE%9A%E4%B9%89%E8%BE%93%E5%85%A5%E7%B1%BB%E5%9E%8B
- kettle-big-data-plugin源码下载地址: https://github.com/pentaho/big-data-plugin
- Kettle帮助文档下载地址:
https://javadoc.pentaho.com
kettle核心组件
转换/作业
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
