使用DataX增量同步数据（转）--慧智精品网

使⽤DataX增量同步数据（转）

关于 DataX

DataX 是阿⾥巴巴集团内被⼴泛使⽤的离线数据同步⼯具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间⾼效的数据同步功能。

如果想进⼀步了解 DataX ，请进⼀步查看。

关于增量更新

DataX ⽀持多种数据库的读写， json 格式配置⽂件很容易编写，同步性能很好，通常可以达到每秒钟 1 万条记录或者更⾼，可以说是相当优秀的产品，但是缺乏对增量更新的内置⽀持。

其实增量更新⾮常简单，只要从⽬标数据库读取⼀个最⼤值的记录，可能是 DateTime 或者 RowVersion 类型，然后根据这个最⼤值对源数据库要同步的表进⾏过滤，然后再进⾏同步即可。

由于 DataX ⽀持多种数据库的读写，⼀种相对简单并且可靠的思路就是：

1. 利⽤ DataX 的 DataReader 去⽬标数据库读取⼀个最⼤值；

2. 将这个最⼤值⽤ TextFileWriter 写⼊到⼀个 CSV ⽂件；

3. ⽤ Shell 脚本来读取 CSV ⽂件，并动态修改全部同步的配置⽂件；

4. 执⾏修改后的配置⽂件，进⾏增量同步。

接下来就⽤ shell 脚本来⼀步⼀步实现增量更新。

增量更新的 shell 实现

我的同步环境是从 SQLServer 同步到 PostgreSQL ，部分配置如下：

"reader": {

"name": "sqlserverreader",

"parameter": {

"username": "...",

"password": "...",

"connection": [

{

"jdbcUrl": [

"jdbc:sqlserver://[source_server];database=[source_db]"

"querySql": [

"SELECT DataTime, PointID, DataValue FROM dbo.Minutedata WHERE 1=1"

]

}

]

}五行属木的字大全

"writer": {

"name": "postgresqlwriter",

"parameter": {

"username": "...",

"password": "...",

"connection": [

{

"jdbcUrl": "jdbc:postgresql://[target_server]:5432/[target_db]",

"table": [

"public.minute_data"

]

}

"column": [

"data_time",

"point_id",

什么牌子的月饼最好吃

"data_value"

"preSql": [

"TRUNCATE TABLE @table"

]

}

"setting": { }

}

更多的配置可以参考以及。

要实现增量更新，⾸先要 PostgresqlReader 从⽬标数据库读取最⼤⽇期，并⽤ TextFileWriter 写⼊到⼀个 csv ⽂件，这⼀步我的配置如下所⽰：

"reader": {

"name": "postgresqlreader",

"parameter": {

"connection": [

{

"jdbcUrl": [

"jdbc:postgresql://[target_server]:5432/[target_db]"

"querySql": [

"SELECT max(data_time) FROM public.minute_data"

周记500

]

}

"password": "...",

"username": "..."

}

"writer": {

"name": "txtfilewriter",

"parameter": {

"dateFormat": "yyyy-MM-dd HH:mm:ss",

"fileName": "minute_data_max_time_result",

"fileFormat": "csv",

"path": "/scripts/",

"writeMode": "truncate"

}

}火炬之光2 联机补丁

}

"setting": { }

}

更多的配置可以看考以及

有了这两个配置⽂件，现在可以编写增量同步的 shell ⽂件，内容如下：

#!/bin/bash

### every exit != 0 fails the script

set -e

# 获取⽬标数据库最⼤数据时间，并写⼊⼀个 csv ⽂件

docker run --interactive --tty --rm --network compose --volume $(pwd):/scripts \

beginor/datax:3.0 \

/scripts/minute_data_max_time.json

if [ $? -ne 0 ]; then

echo"minute_data_sync.sh error, can not get max_time from target db!"

exit 1

# 到 DataX 写⼊的⽂本⽂件，并将内容读取到⼀个变量中

RESULT_FILE=`ls minute_data_max_time_result_*`

MAX_TIME=`cat $RESULT_FILE`

# 如果最⼤时间不为null的话，修改全部同步的配置，进⾏增量更新；

if [ "$MAX_TIME" != "null" ]; then

教师成长计划# 设置增量更新过滤条件

WHERE="DataTime > '$MAX_TIME'"

sed"s/1=1/$WHERE/g" minute_data.json > minute_data_tmp.json

# 将第45⾏的 truncate 语句删除；

sed'45d' minute_data_tmp.json > minute_data_inc.json

梦见很多坟墓

# 增量更新

docker run --interactive --tty --rm --network compose --volume $(pwd):/scripts \

beginor/datax:3.0 \

/scripts/minute_data_inc.json

# 删除临时⽂件

rm ./minute_data_tmp.json ./minute_data_inc.json

else

# 全部更新

docker run --interactive --tty --rm --network compose --volume $(pwd):/scripts \

beginor/datax:3.0 \

/scripts/minute_data.json

在上⾯的 shell ⽂件中，使⽤我制作的 DataX docker 镜像，使⽤命令 docker pull beginor/datax:3.0 即可获取该镜像，当也可以修改这个 shell 脚本直接使⽤ datax 命令来执⾏。

为什么⽤ shell 来实现

因为 DataX ⽀持多种数据库的读写，充分利⽤ DataX 读取各种数据库的能⼒，减少了很多开发⼯作，毕竟 DataX 的可靠性是很好的。

慧智精品网

使用DataX增量同步数据（转）

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

使用DataX增量同步数据（转）

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物