百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器

csdh11 2025-04-05 17:51 3 浏览

简介

这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

官方手册:
https://github.com/alibaba/DataX

支持的数据库类型

环境部署

1安装Python 2.6.x

工具基于py2.6,请不要装新版本,容易出奇怪问题
百度下载python-2.6.6.msi,安装一直下一步即可。

环境变量:
Path增加C:\Python26

cmd测试安装效果python -v

2安装java 1.8

百度下载jdk-8u181-windows-x64.exe,安装一直下一步即可。

环境变量:
1)新增变量名:JAVA_HOME
变量值:(变量值填写你的jdk的安装目录,例如本人是C:/Program Files/Java/jdk1.8.0_31)
2)新增变量名:CLASSPATH
变量值:.%JAVA_HOME%/lib;%JAVA_HOME%/lib/tools.jar(注意最前面有一点)
3)编辑Path变量,在原来的变量值最后面添加%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin;

cmd测试安装效果java

使用教程

1总体说明

  1. 通过Reader方法读取数据,然后Write方法写回去。底层用的是jdbc,所以兼容性是非常好的。
  2. 通过job/job.json配置读写方法,然后通过bat运行
    chpcp是为了设置编码模式,不然中文会显示乱码的
    chcp 65001 python datax.py ../job/job.jsonCOPY

2心得小技巧

  1. 还可以通过PreSql前置执行和PostSql后置执行,做一些预处理
  2. PreSql和PostSql都可以通过;号注入多条
  3. 读取的表结构,跟写入的表结构必须完全一样,包括名字和列顺序,避免不必要的麻烦
  4. 如果是自己写sql,则不需要指定主键、列名之类的
  5. 一个json只能同步一个表
  6. 多个表同步,可以写多个json,然后bat文件里多写几行,依次执行

3参考代码

代码写法,主要在github上查看官方手册,例如mysql的Writer

跳转链接:
https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md

真实案例:

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "oraclereader",
                    "parameter": {
                        "username": "jmquery",
                        "password": "xxxx",
                        "connection": [
                            {
                                "querySql": [
                                    "select KHZJBS,KHBH,ZJMC,ZJHM,CZSJ,GDDWBM from JMSJHL.NPMIS_KH_KHZJ   where 1=1" 
                                ],

                                "jdbcUrl": [
                                    "jdbc:oracle:thin:@10.151.19.128:1512:sjhl"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "tudang",
                        "password": "xxxx",
                        "column": [
                            "KHZJBS","KHBH","ZJMC","ZJHM","CZSJ","GDDWBM"                                               
                        ],

                        "preSql": [
                            "insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'开始')"
                        ],
                        "postSql": [
                            "insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'结束')"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://10.151.19.20:33060/tudang?useUnicode=true&characterEncoding=utf8&useSSL=false",
                                "table": [
                                    "KH_KHZJ"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}COPY

4性能调优

通常低于50G的数据,不需要开多线程。100G左右才开2线程。实测数据量少的时候线程没什么区别,还增加不稳定性。
所以一般不需要多线程,也不要改每次写入的量吗,默认就很好了。我们有的是时间,最重要是稳定。开太高负载,容易内存溢出崩掉。

性能调优参考:
https://www.cnblogs.com/hit-zb/p/10940849.html

5创建计划自动执行

Windows系统的方法:

相关推荐

阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器

简介这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。...

Java开发环境搭建与配置,最全手册看这一篇就够了

Java开发环境搭建与配置,工具集合包括:Tomcat\JDK\JRE\Redis\Maven。JDK下载JDK安装包:jdk-8u161-windows-x64.exe。可以加关注私信我,提供百度网...

JAVA安装教程——JDK安装(java 安装)

一个初学者的尝试与理解,欢迎广大网友的评论与指正。(纯兴趣爱好学习)。一、什么是JDKJDK,又称为JavaSDK是Java语言的软件开发工具包。JDK中包含JRE和Java开发工具包,JRE又...

Windows和Linux环境下的JDK安装教程

JavaDevelopmentKit(简称JDK),是Java开发的核心工具包,提供了Java应用程序的编译、运行和开发所需的各类工具和类库。它包括了JRE(JavaRuntimeEnviro...

JAVA 8 环境安装配置(java环境怎么装)

一、下载这里选择的是OracleJDK,首先到Oracle官网下载JDK8,以Windows10操作系统为例,若是32位系统则下载“Windowsx86”,否则64位系统下载“Windows...

真的要开始用 JDK 17 了(jdk17好用吗)

最近在调研JDK17,并且试着将之前的一个小项目升级了一下,在测试环境跑了一段时间。...

在Windows 10下搭建Java环境(使用jdk-13.0.1)

一、初识JDK、JRE和JVM对于使用Java语言的开发者来说,在安装开发工具(Eclipse等)之前首先需要安装JDK(JavaDevelopmentKit,Java开发工具包)。它是整个JAV...

「是时候升级Java11了」 JDK11优势和JDK选择

专注于Java领域优质技术,欢迎关注作者:冷冷ggJava8商用收费从2019年1月份开始,OracleJDK开始对JavaSE8之后的版本开始进行商用收费,确切的说是8u201/20...

Java近期新闻:JDK 24 RC1、JDK Mission Control、Spring、Hibernate、Vert.x

...

如何安装jdk(如何安装jdk1.8)

学习java首先要安装Java开发工具箱(JDK):要在计算机上编写和运行Java程序,需要安装Java开发工具箱(JDK)。JDK包括Java编译器(javac)和Java虚拟机(JVM)。可以从O...

Java JDK下载安装及Windows环境变量配置

JavaJDK下载安装JDK是Java的开发工具包,要进行Java学习或开发之前,需先下载安装,下载地址如下:...

JDK安装、Eclipse安装及运行环境配置

1、eclipse下载打开地址:http://www.eclipse.org/downloads/;根据自己机器的操作系统,页面上显示适应机器操作系统的Eclipse下载列表,也可以点击下图所示位置切...

宝塔面板安装jdk16 – 卸载默认的jdk1.8

昨天想安装一个halo博客,开始的时候一直安装不上,后来发现jdk版本不对,halo博客默认的jdk版本最低是jdk11,宝塔默认的是jdk1.8,所以这篇文章就来倒腾下如何在宝塔面板环境下卸载默认的...

JDK1.8安装&环境变量配置(jdk安装步骤环境变量配置)

1、下载并安装JDK1.8链接:https://pan.baidu.com/s/1bfceFjfTQvLylu7a3T7fyg?pwd=ydtm...

如何在Windows10中配置java的JDK环境

今天给大家分享一下如何配置java的JDK环境。操作步骤如下:1.下载好jdk的安装文件,我下载的是jdk-10.0.1_windows-x64_bin.exe这个版本的安装文件;2.使用鼠标...