⼤数据同步⼯具DataX、Sqoop、Canal之⽐较
1.Sqoop与DataX
花糕花样做法大全图片Sqoop依赖于Hadoop⽣态,充分利⽤了map-reduce计算框架,在Hadoop的框架中运⾏,对HDFS、Hive⽀持友善,在处理数仓⼤表的速度相对较快,但不具备统计和校验能⼒。
DataX⽆法分布式部署,需要依赖调度系统实现多客户端,可以在传输过程中进⾏过滤,并且可以统计传输数据的信息,因此在业务场景复杂(表结构变更)更适⽤,同时对于不同的数据源⽀持更好,同时不⽀持⾃动创建表和分区。⽀持流量控制,⽀持运⾏信息收集,及时跟踪数据同步情况。
日本动漫排行榜DataX框架设计:
Sqoop采⽤命令⾏的⽅式调⽤,⽐如容易与我们的现有的调度监控⽅案相结合,DataX采⽤xml 配置⽂件的⽅式,在开发运维上还是有点不⽅便。
Sqoop只可以在关系型数据库和Hadoop组件之间进⾏数据迁移,⽽在Hadoop相关组件之间,⽐如hive和hbase之间就⽆法使⽤sqoop互相导⼊导出数据,同时在关系型数据库之间,⽐如mysql和oracle之间也⽆法通过sqoop导⼊导出数据。与之相反,DataX能够分别实现关系型数据库Hadoop组件之间、关系型数据库之间、Hadoop组件之间的数据迁移。
国庆70周年手抄报内容
2.Sqoop与Canal
Sqoop: 同步全量数据,能够实现对关系型数据的全量同步,但在很多业务场景下,由于数据量⾮常⼤,每天全量同步,对于Hadoop的压⼒较⼤,因此要慎⽤。
Canal: 主要⽤途是基于 MySQL 数据库增量⽇志解析,提供增量数据订阅和消费,只同步更新的数据。也可以配置MQ模式,配合RocketMQ 或者Kafka,Canal会把数据发送到MQ的topic中,然后通过消息队列的消费者进⾏处理。
Canal的⼯作原理就是把⾃⼰伪装成MySQL slave,基于监听binlog⽇志去进⾏同步数据的。徐州区号
>bigbang新专辑>有哪些寓言成语
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论