数据采集与预处理
⽬录
1.采⽤哪些⽅式可以获取⼤数据?
(1)通过业务系统或者互联⽹端的服务器⾃动汇聚(系统⽇志采集,⽹络数据采集(通过⽹络爬⾍实现)),如业务数据、⽤户⾏为数据等。给车买保险买什么险种
(2)通过卫星、摄像机和传感器等硬件设备⾃动汇聚,如遥感数据、交通数据等。平安夜短信
(3)通过整理汇聚,如商业景⽓数据、⼈⼝普查数据等。
2.常⽤⼤数据采集⼯具有哪些?
(1)Apache Chukwa,⼀个针对⼤型分布式系统的数据采集系统,其构建在Hadoop之上,使⽤HDFS作为存储。
(2)Flume,⼀个功能完备的分布式⽇志采集、聚合和传输系统。在Flume中,外部输⼊称为Source(源),系统输出称为
Sink(接收端),Channel(通道)将源和接收端链接在⼀起。
(3)Scrible,facebook开源的⽇志收集系统。
(4)Kafka,当下流⾏的分布式发布、订阅消息系统,也可⽤于⽇志聚合。不仅具有⾼可拓展性和容错性,⽽且具有很⾼的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。
搭配服装3.简述什么是Apache Kafka数据采集。
Apache Kafka 是当下流⾏的分布式发布、订阅消息系统,被设计成能够⾼效地处理⼤量实时数据,其特点是快速的、可拓展的、分布式的、分区的和可复制的。Kafka是⽤Scala语⾔编写的,虽然置⾝于Java阵营,但其并不遵循JMS规范。
4.Topic可以有多少个分区,这些分区有什么⽤?
⼀个Topic可以有多个分区,这些分区可以作为并⾏处理的单元,从⽽使Kafka有能⼒⾼效地处理⼤量数据。
5.Kafka抽象具有哪种模式的特征消费组?
Kafka提供⼀种单独的消费者抽象,此抽象具有两种模式的特征消费组:Queuing和Publish-Subscribe。
6.简述数据预处理的原理。
数据预处理(Data Preprocessing)是指在对数据进⾏挖掘以前,需要对原始数据进⾏清理、集合和变换等⼀系列处理⼯作,以达到挖掘算法进⾏知识获取研究所要求的最低规范和标准。通过数据预处理⼯作,可以使残缺的数据完整,并将错误的数据纠正、多余的数据去除,进⽽将所需的数据进⾏数据集成。数据预处理的常见⽅法有数据清洗、数据集成和数据变换。
7.数据清洗有哪些⽅法?
(1)填充缺失值。常⽤处理⽅法:忽略元组、⼈⼯填写缺失值、使⽤⼀个全局变量填充缺失值、⽤属性的均值填充缺失值、⽤同类样本的属性均值填充缺失值、使⽤最可能的值填充缺失值。
(2)光滑噪声数据。⽅法:分箱、回归、聚类。
(3)数据清洗过程,包括检测偏差和纠正偏差。
8.数据集成需要重点考虑的问题有哪些?
(1)模式集成和对象匹配问题。
(2)冗余问题。
(3)元组重复。
(4)数据值冲突的检测与处理问题。
9.数据变换主要涉及哪些内容?
(1)光滑。去除数据中的噪声。
(2)聚集。对数据进⾏汇总或聚集。
(3)数据泛化。使⽤概念分层,⽤⾼层概念代替底层或“原始”数据。
(4)规范化。将属性数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。
(5)属性构造。可以构造新的属性并添加到属性集中,以帮助挖掘过程。
10.分别简述常⽤ETL⼯具。
起诉离婚需要准备什么材料>无可奈何花落去全诗 ETL是⽤来描述将数据从源端经过提取、转换、装⼊到⽬的端的过程。
常⽤⼯具有:
优秀教师先进材料 (1)PowerCenter。Informatica的PowerCenter是⼀个可拓展、⾼性能企业数据集成平台,应⽤于各种数据集成流程,通过该平台可实现⾃动化、重复使⽤及灵活性。
(2)IBM Datastage。IBM InfoSphere Datastage是⼀款功能强⼤的ETL⼯具,是IBM数据集成平台IBM Information Server的⼀部分,是专门的数据提取、数据转换、数据发布⼯具。
(3)Kettle。Kattle是Pentaho的ETL⼯具,Pentaho是⼀套开源的解决⽅案。Kattle是⼀款国外优秀的开源ETL⼯具,由纯Java编写,可以在Windows、Linux、UNIX上运⾏,⽆需安装,数据抽取⾼效稳定。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论