DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图:
类型 |
数据源 |
Reader(读) |
Writer(写) |
文档 |
RDBMS 关系型数据库 |
MySQL |
√ |
√ |
|
|
Oracle |
√ |
√ |
|
|
OceanBase |
√ |
√ |
|
SQLServer |
√ |
√ |
||
PostgreSQL |
√ |
√ |
||
DRDS |
√ |
√ |
||
Apache Doris |
√ |
写 |
||
StarRocks |
√ |
写 |
||
通用RDBMS(支持所有关系型数据库) |
√ |
√ |
||
阿里云数仓数据存储 |
ODPS |
√ |
√ |
|
ADS |
√ |
写 |
||
OSS |
√ |
√ |
||
OCS |
√ |
写 |
||
NoSQL数据存储 |
OTS |
√ |
√ |
|
Hbase0.94 |
√ |
√ |
||
Hbase1.1 |
√ |
√ |
||
Phoenix4.x |
√ |
√ |
||
Phoenix5.x |
√ |
√ |
||
MongoDB |
√ |
√ |
||
Hive |
√ |
√ |
||
Cassandra |
√ |
√ |
||
无结构化数据存储 |
TxtFile |
√ |
√ |
|
FTP |
√ |
√ |
||
HDFS |
√ |
√ |
||
Elasticsearch |
√ |
写 |
||
时间序列数据库 |
OpenTSDB |
√ |
读 |
|
TSDB |
√ |
√ |
||
TDengine |
√ |
√ |
1.环境准备
JDK(1.8以上,推荐1.8)
Python(2或3都可以) #centos7默认已经安装了Python2
2.下载DataX
下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
3.安装
验证是否安装成功
如果遇到报错可以参考次文章:https://blog.51cto.com/u_13753753/5761114
官方地址:https://github.com/alibaba/DataX/blob/master/userGuid.md