使⽤KETTLE从mysql同步增量数据到oracle
初次使⽤ETL⼯具抽取并同步数据,搜索之后决定使⽤kettle,使⽤后感觉很⽅便。
本次是基于⼀个很⼩的需求,需要把⽼系统的mysql数据在⼀段新⽼系统共存时期内产⽣的数据实时传输到新系统oracle中,因为实时性要求不算⾼,所以我没有做触发器这些对接,只单纯的使⽤kettle做了⼀个抽取转换传输,定时执⾏。下⾯记录⼀下本次的操作,并写⼀下⾃⼰遇到的坑。
⽼系统mysql表很⼤,本次基于⼀个⼩的需求,只需要抽取其中的两个字段同步传输。两个字段均是varchar类型,相对⽐较简单。我尝试过传输mysql的int(11)和oracle的number,发现需要把oracle的number改为number(10),⼆者才能对的上号。柳州旅游景点
火炬之光怎么洗点什么是会计电算化⼯具:kettle的pdi-ce-7.0.0.0-25,可去官⽹下载;mysql,oracle
思路:先将mysql⽼数据和oracle同步后的数据都查出来,转换字段统⼀整合交给kettle处理,kettle会依据关键字段和时间戳来判断来⾃mysql的数据对oracle来讲,是新增、更新、删除还是⽆任何操作,并分别标注标识位,后续⼀步步判断标识位,最后转换成oracle字段,插⼊/更新/删除数据库数据。
甜言蜜语的话整个流程使⽤kettle分为两部分,⼀部分是⼀个转换,是流程执⾏的主要战场;另⼀个是⼀个作业,⽤来循环执⾏上⼀个转换,达到定时执⾏的效果。
转换步骤图:
作业流程图:
作业流程图很简单,主要是循环定时执⾏转换,忽略不计。本次主要讲的是转换。
转换⾸先要建⽴数据库连接,最后再讲。
步骤⼀:从mysql和oracle中查询所有数据,传送给下⼀步。
mysql是每次同步的源头,oracle是每次同步的⽬标。之所以两处都要查出来,是因为要在下⼀步中⽐对⼆者的数据,判断哪些是增量数据。
B2BTest节点和SROTest节点:
从⼆者查出来的数据,统⼀归整成两个字段,TASKNO和SAPNO,然后推⼊下⼀个节点。
步骤⼆:合并上⼀步的记录,并分析增量数据,ETL会⾃动给每条数据都打上标记flagfield
关键字段指的是⽤来分析增量数据的依据性字段,数据字段指的是所有需要合并整理的字段,标记打在flagfield上。
因为是从Mysql同步到oracle,所以旧数据源选择oracle的,新数据源选择mysql的
步骤三:将标记和数据进⼀步处理,映射⼀下增量数据标记
杨恭如被污辱的片段kettle会⾃动在上⼀步打上标记,默认值是 deleted、new、changed、identical(什么也不做的意思,实际是打上null标记)。我们可以
映射成我们⾃⼰的标记,⽤于下⼀步的处理。
步骤四:第⼀次开始过滤增量标记,开始第⼀步分⽀流程处理。
本次过滤是将flagfield标记为null的,也就是identical指代的标记的数据,全部扔到空操作中。这些数据毫⽆变化,所以不必做任何操作。需要下⼀步处理的变化数据,全都丢到下⼀步的获取系统时间中。
步骤五:获取系统时间
获取系统时间的⽬的是给数据打上时间戳并存⼊⽬标数据库,如果不⽅便存⼊⽬标数据库,放⼊⼀个中间表也⾏的。反正下次整理数据的时候要能搞到这个值。这⾥也是我不明⽩的⼀点,我并没有从⽬标数据库中查询这个时间戳,ETL如何到这个时间戳,并知道哪些是该增加还是不该,哪些是该更新还是不该的。这个没有想明⽩,因为如果不加系统时间,你会发现ETL会全量删除,全量增加⽬标数据库的数据。加上这个时间,就会少量更新、删除、添加。如果有谁能看到这篇⽇志记录,烦请告知。
本次会分离需要新增的数据出来,交给后续处理⼊库;更新和删除的数据,需要继续下⼀步的过滤。
上图有两步,从flagfield中过滤出来需要新增的数据,然后抛给分⽀“准备插⼊⽬标数据库”,在这个⼦流程节点,会将流中的字段(字段名称),转换成数据库中的字段(改名称成),有两个字段flagfield和UPDATE_TIME⽆需转换,本来就是这个字段,所以⽆需添加“改名成”列。
之后就是插⼊数据库。这⾥有个坑,不要使⽤“插⼊”操作功能,要使⽤表输出。不知道为什么,使⽤插⼊操作功能,总会出现少量数据的
误差。
步骤七:第三次过滤增量数据标记
南方和北方本次过滤的是剩下的更新和删除,这两种标记的数据均会被推⼊数据库中。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论