阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器
csdh11 2025-04-05 17:51 3 浏览
简介
这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
官方手册:
https://github.com/alibaba/DataX
支持的数据库类型
环境部署
1安装Python 2.6.x
工具基于py2.6,请不要装新版本,容易出奇怪问题
百度下载python-2.6.6.msi,安装一直下一步即可。
环境变量:
Path增加C:\Python26
cmd测试安装效果python -v
2安装java 1.8
百度下载jdk-8u181-windows-x64.exe,安装一直下一步即可。
环境变量:
1)新增变量名:JAVA_HOME
变量值:(变量值填写你的jdk的安装目录,例如本人是C:/Program Files/Java/jdk1.8.0_31)
2)新增变量名:CLASSPATH
变量值:.%JAVA_HOME%/lib;%JAVA_HOME%/lib/tools.jar(注意最前面有一点)
3)编辑Path变量,在原来的变量值最后面添加%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin;
cmd测试安装效果java
使用教程
1总体说明
- 通过Reader方法读取数据,然后Write方法写回去。底层用的是jdbc,所以兼容性是非常好的。
- 通过job/job.json配置读写方法,然后通过bat运行
chpcp是为了设置编码模式,不然中文会显示乱码的chcp 65001 python datax.py ../job/job.jsonCOPY
2心得小技巧
- 还可以通过PreSql前置执行和PostSql后置执行,做一些预处理
- PreSql和PostSql都可以通过;号注入多条
- 读取的表结构,跟写入的表结构必须完全一样,包括名字和列顺序,避免不必要的麻烦
- 如果是自己写sql,则不需要指定主键、列名之类的
- 一个json只能同步一个表
- 多个表同步,可以写多个json,然后bat文件里多写几行,依次执行
3参考代码
代码写法,主要在github上查看官方手册,例如mysql的Writer
跳转链接:
https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md
真实案例:
{
"job": {
"setting": {
"speed": {
"channel": 1
}
},
"content": [
{
"reader": {
"name": "oraclereader",
"parameter": {
"username": "jmquery",
"password": "xxxx",
"connection": [
{
"querySql": [
"select KHZJBS,KHBH,ZJMC,ZJHM,CZSJ,GDDWBM from JMSJHL.NPMIS_KH_KHZJ where 1=1"
],
"jdbcUrl": [
"jdbc:oracle:thin:@10.151.19.128:1512:sjhl"
]
}
]
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"writeMode": "insert",
"username": "tudang",
"password": "xxxx",
"column": [
"KHZJBS","KHBH","ZJMC","ZJHM","CZSJ","GDDWBM"
],
"preSql": [
"insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'开始')"
],
"postSql": [
"insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'结束')"
],
"connection": [
{
"jdbcUrl": "jdbc:mysql://10.151.19.20:33060/tudang?useUnicode=true&characterEncoding=utf8&useSSL=false",
"table": [
"KH_KHZJ"
]
}
]
}
}
}
]
}
}COPY
4性能调优
通常低于50G的数据,不需要开多线程。100G左右才开2线程。实测数据量少的时候线程没什么区别,还增加不稳定性。
所以一般不需要多线程,也不要改每次写入的量吗,默认就很好了。我们有的是时间,最重要是稳定。开太高负载,容易内存溢出崩掉。
性能调优参考:
https://www.cnblogs.com/hit-zb/p/10940849.html
5创建计划自动执行
Windows系统的方法:
- 上一篇:Java开发环境搭建与配置,最全手册看这一篇就够了
- 已经是最后一篇了
相关推荐
- 阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器
-
简介这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。...
- Java开发环境搭建与配置,最全手册看这一篇就够了
-
Java开发环境搭建与配置,工具集合包括:Tomcat\JDK\JRE\Redis\Maven。JDK下载JDK安装包:jdk-8u161-windows-x64.exe。可以加关注私信我,提供百度网...
- JAVA安装教程——JDK安装(java 安装)
-
一个初学者的尝试与理解,欢迎广大网友的评论与指正。(纯兴趣爱好学习)。一、什么是JDKJDK,又称为JavaSDK是Java语言的软件开发工具包。JDK中包含JRE和Java开发工具包,JRE又...
- Windows和Linux环境下的JDK安装教程
-
JavaDevelopmentKit(简称JDK),是Java开发的核心工具包,提供了Java应用程序的编译、运行和开发所需的各类工具和类库。它包括了JRE(JavaRuntimeEnviro...
- JAVA 8 环境安装配置(java环境怎么装)
-
一、下载这里选择的是OracleJDK,首先到Oracle官网下载JDK8,以Windows10操作系统为例,若是32位系统则下载“Windowsx86”,否则64位系统下载“Windows...
- 真的要开始用 JDK 17 了(jdk17好用吗)
-
最近在调研JDK17,并且试着将之前的一个小项目升级了一下,在测试环境跑了一段时间。...
- 在Windows 10下搭建Java环境(使用jdk-13.0.1)
-
一、初识JDK、JRE和JVM对于使用Java语言的开发者来说,在安装开发工具(Eclipse等)之前首先需要安装JDK(JavaDevelopmentKit,Java开发工具包)。它是整个JAV...
- 「是时候升级Java11了」 JDK11优势和JDK选择
-
专注于Java领域优质技术,欢迎关注作者:冷冷ggJava8商用收费从2019年1月份开始,OracleJDK开始对JavaSE8之后的版本开始进行商用收费,确切的说是8u201/20...
- 如何安装jdk(如何安装jdk1.8)
-
学习java首先要安装Java开发工具箱(JDK):要在计算机上编写和运行Java程序,需要安装Java开发工具箱(JDK)。JDK包括Java编译器(javac)和Java虚拟机(JVM)。可以从O...
- Java JDK下载安装及Windows环境变量配置
-
JavaJDK下载安装JDK是Java的开发工具包,要进行Java学习或开发之前,需先下载安装,下载地址如下:...
- JDK安装、Eclipse安装及运行环境配置
-
1、eclipse下载打开地址:http://www.eclipse.org/downloads/;根据自己机器的操作系统,页面上显示适应机器操作系统的Eclipse下载列表,也可以点击下图所示位置切...
- 宝塔面板安装jdk16 – 卸载默认的jdk1.8
-
昨天想安装一个halo博客,开始的时候一直安装不上,后来发现jdk版本不对,halo博客默认的jdk版本最低是jdk11,宝塔默认的是jdk1.8,所以这篇文章就来倒腾下如何在宝塔面板环境下卸载默认的...
- JDK1.8安装&环境变量配置(jdk安装步骤环境变量配置)
-
1、下载并安装JDK1.8链接:https://pan.baidu.com/s/1bfceFjfTQvLylu7a3T7fyg?pwd=ydtm...
- 如何在Windows10中配置java的JDK环境
-
今天给大家分享一下如何配置java的JDK环境。操作步骤如下:1.下载好jdk的安装文件,我下载的是jdk-10.0.1_windows-x64_bin.exe这个版本的安装文件;2.使用鼠标...
- 一周热门
- 最近发表
-
- 阿里巴巴的DataX ETL工具的使用心得,数据库主从热备份神器
- Java开发环境搭建与配置,最全手册看这一篇就够了
- JAVA安装教程——JDK安装(java 安装)
- Windows和Linux环境下的JDK安装教程
- JAVA 8 环境安装配置(java环境怎么装)
- 真的要开始用 JDK 17 了(jdk17好用吗)
- 在Windows 10下搭建Java环境(使用jdk-13.0.1)
- 「是时候升级Java11了」 JDK11优势和JDK选择
- Java近期新闻:JDK 24 RC1、JDK Mission Control、Spring、Hibernate、Vert.x
- 如何安装jdk(如何安装jdk1.8)
- 标签列表
-
- mydisktest_v298 (34)
- document.appendchild (35)
- 头像打包下载 (61)
- acmecadconverter_8.52绿色版 (39)
- word文档批量处理大师破解版 (36)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- parsevideo (33)
- 个人网站源码 (37)
- centos7.4下载 (33)
- mysql 查询今天的数据 (34)
- intouch2014r2sp1永久授权 (36)
- 先锋影音源资2019 (35)
- jdk1.8.0_191下载 (33)
- axure9注册码 (33)
- pts/1 (33)
- spire.pdf 破解版 (35)
- shiro jwt (35)
- sklearn中文手册pdf (35)
- itextsharp使用手册 (33)
- 凯立德2012夏季版懒人包 (34)
- 反恐24小时电话铃声 (33)
- 冒险岛代码查询器 (34)
- 128*128png图片 (34)
- jdk1.8.0_131下载 (34)