centos7.9安装DataX

时间:2022-10-18 13:54:53

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图:

类型

数据源

Reader(读)

Writer(写)

文档

RDBMS 关系型数据库

MySQL



​读​​​ 、​​写​

           

Oracle    

    √    

    √    

​读​​​ 、​​写​

           

OceanBase  

    √    

    √    

​读​​​ 、​​写​

SQLServer



​读​​​ 、​​写​

PostgreSQL



​读​​​ 、​​写​

DRDS



​读​​​ 、​​写​

Apache Doris


​写​

StarRocks


​写​

通用RDBMS(支持所有关系型数据库)



​读​​​ 、​​写​

阿里云数仓数据存储

ODPS



​读​​​ 、​​写​

ADS


​写​

OSS



​读​​​ 、​​写​

OCS


​写​

NoSQL数据存储

OTS



​读​​​ 、​​写​

Hbase0.94



​读​​​ 、​​写​

Hbase1.1



​读​​​ 、​​写​

Phoenix4.x



​读​​​ 、​​写​

Phoenix5.x



​读​​​ 、​​写​

MongoDB



​读​​​ 、​​写​

Hive



​读​​​ 、​​写​

Cassandra



​读​​​ 、​​写​

无结构化数据存储

TxtFile



​读​​​ 、​​写​

FTP



​读​​​ 、​​写​

HDFS



​读​​​ 、​​写​

Elasticsearch


​写​

时间序列数据库

OpenTSDB


​读​

TSDB



​读​​​ 、​​写​

TDengine



​读​​​ 、​​写​

1.环境准备

JDK(1.8以上,推荐1.8)

Python(2或3都可以)            #centos7默认已经安装了Python2

2.下载DataX

下载地址:​​http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz​

centos7.9安装DataX

3.安装

tar -zxvf datax.tar.gz

验证是否安装成功

python /opt/datax/bin/datax.py /opt/datax/job/job.json

如果遇到报错可以参考次文章:​​https://blog.51cto.com/u_13753753/5761114​

官方地址:​https://github.com/alibaba/DataX/blob/master/userGuid.md​