数据采集的⼏种⽅法
数据采集的背景
⽤户每天通过不同的终端设备在系统A上做出⼀系列的操作,⽐如在新闻系统上的看⼀些⽂章,进⾏收藏或者点赞、评论等等,会触发A系统下不同的微服务,如abc等,如何记录好⽤户的⾏为信息,并将其保存下来⽤于分析⽤户的⾏为偏好,需要结合不同的数据采集策略。
业务系统
数据采集的⼏种⽅式
⽅式⼀:读备份库
为了不影响业务系统的正常运⾏,可以采⽤读备份库的数据,这样能够及时获取数据进⾏⼀些分析⼯作,但是有些从业务也会读取备份数据库,还需要考虑⼀致性和可⽤性问题。
数据库备份
⽅式⼀: 埋点(pingback)
分析对⽐
数据采
集⽅式
优点缺点
埋点(pingb ack)很细致的将前端⽤户操作记录下来,能够感知到DB
电子签名怎么弄存储之外的⽤户信息,时效性⾼
经典犯罪电影⼯作量⼤,可能对业务代码有侵⼊性;当业务量⼤的时候,
数据抓取服务也需要承载⼀定的压⼒,对数据不⽅便统计和
聚合
主库写
备库读
及时感知备库中的信息 ,数据⼀致性强可能存在⼤量不需要进⾏分析的字段,对业务性能有影响
财经类专业埋点+消息中间件有效的解决业务量⼤时对数据存取性能的要求,根
据数据抓取服务的需求可以拉也可以推,解耦业务
代码
可能会丢失数据,降低了时效性
订阅binlog ⼯作量⼩,可以离线感知数据的变化,对数据变更
进⾏统计分析
不能感知除DB数据变更之外的⽤户⾏为
因此对数据的抓取可以多种⽅式结合,具体还是要根据后端数据分析任务对数据的时效性、需求和性能综合考虑。
源码分享
Demo1:患者服务(patient)会产⽣不同的病例记录,然后doctor服务端采⽤kafka/pingback/binlog三种不同⽅式感知患者的患病信息,对数据进⾏有效的采集。
2023年法定节假日源码参考
魅力指数Demo2: ⼀个数据采集的微服务,⽤户发送请求到微服务系统中,系统通过⽇志的形式将请求信息持久化到⽂件中。
斯卡布罗集市的歌词源码参考
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论