数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等...
数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各
是什么?
数据采集:⼜称数据获取,是利⽤⼯具或者技术,从系统外部获取数据并输⼊到系统内部的⼀个过程。
数据收集
数据传输:数据传输是按照⼀定的规程,通过⼀条或多条数据链路,将数据从数据源传输到数据终端,它的主要作⽤是实现点与点之间的信息传输和交换。
数据同步:数据同步是通过直连、同步⽂件或⽇志解析的⽅式,将不同物理位置的⽬标数据系统中的数据内容进⾏更新,使之与源数据系统中的数据相同的过程。
数据集成:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从⽽为企业提供全⾯的数据共享。
数据整合:数据整合是把不同数据源的数据收集、整理、清洗,转换后加载到⼀个新的数据源,为数据消费者提供统⼀数据视图的数据集成⽅式。
数据抓取:也称为⽹络数据提取或⽹页爬取,是指从⽹上获取⾮结构化数据,并将获取到的数据转换为结构化的数据,最终可以将数据存储到本地计算机或数据库的⼀种技术。
抓包:是指将⽹络传输发送与接收的数据包进⾏截获、重发、编辑、转存等操作,也⽤来检查⽹络安全。抓包也经常被⽤来进⾏数据截取。数据提取:是指从原始数据中抽取出感兴趣数据的过程。
数据迁移:数据迁移是将某⼀存储系统中的很少使⽤或不⽤的⽂件或数据转移到新的存储系统的存档过程。
数据收集:是指根据系统⾃⾝的需求和⽤户的需要收集相关的数据。
数据抽取:是指从数据源中抽取数据的过程。
以上的名词区别在于其使⽤的场景,但是⼤部分情况下,这些名词都有⼀定的共⽤性。⽐如从Mysql中将数据转移⾄hive中,如果是将hive 中的数据覆盖掉,这个过程叫做数据同步。如果仅仅不考虑是覆盖还是追加等操作,仅考虑这件事情,则为数据抽取。如果mysql作为外部系统(业务上的定位),那么也可以称为数据采集。数据在转移的过程中,处于ing状态的话叫做数据传输。如果采集的系统较多,⽐如有多个Mysql的库,也可以称为数据集成。如果对数据还进⾏了⼀些etl处理,使之有多表的聚合,那么也可以称为数据整合。在整合过程中,对部分字段或维度有⼀定的取舍,叫做数据提取。如果是在还未采集过来就先设定好采集的条件,使采集到Hive中的数据和Mysql的长得不⼀样,叫数据收集。如果是因为业务原因,mysql不⽤了,因此将所有数据给转到hive⾥,叫数据迁移。如果数据是从⽹上获取到的,叫做数据抓取,也叫⽹络爬⾍。抓包是⼀个另外的概念,是指数据⽹络传输过程中,
进⾏拦截,将拦截下来的信息拿出来看,叫数据抓包。
done。
⼤数据扯淡交流:808565587,没有培训机构,没有杂七杂⼋,纯粹的交流,只有爱与同⾏交流的你。欢迎⼤家。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。