数据采集与预处理--慧智精品网

数据采集与预处理

⽬录

1.采⽤哪些⽅式可以获取⼤数据？

（1）通过业务系统或者互联⽹端的服务器⾃动汇聚（系统⽇志采集，⽹络数据采集(通过⽹络爬⾍实现）)，如业务数据、⽤户⾏为数据等。给车买保险买什么险种

（2）通过卫星、摄像机和传感器等硬件设备⾃动汇聚，如遥感数据、交通数据等。平安夜短信

（3）通过整理汇聚，如商业景⽓数据、⼈⼝普查数据等。

2.常⽤⼤数据采集⼯具有哪些？

（1）Apache Chukwa，⼀个针对⼤型分布式系统的数据采集系统，其构建在Hadoop之上，使⽤HDFS作为存储。

（2）Flume，⼀个功能完备的分布式⽇志采集、聚合和传输系统。在Flume中，外部输⼊称为Source（源），系统输出称为

Sink（接收端），Channel（通道）将源和接收端链接在⼀起。

（3）Scrible，facebook开源的⽇志收集系统。

（4）Kafka，当下流⾏的分布式发布、订阅消息系统，也可⽤于⽇志聚合。不仅具有⾼可拓展性和容错性，⽽且具有很⾼的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。

搭配服装

3.简述什么是Apache Kafka数据采集。

Apache Kafka 是当下流⾏的分布式发布、订阅消息系统，被设计成能够⾼效地处理⼤量实时数据，其特点是快速的、可拓展的、分布式的、分区的和可复制的。Kafka是⽤Scala语⾔编写的，虽然置⾝于Java阵营，但其并不遵循JMS规范。

4.Topic可以有多少个分区，这些分区有什么⽤？

⼀个Topic可以有多个分区，这些分区可以作为并⾏处理的单元，从⽽使Kafka有能⼒⾼效地处理⼤量数据。

5.Kafka抽象具有哪种模式的特征消费组？

Kafka提供⼀种单独的消费者抽象，此抽象具有两种模式的特征消费组：Queuing和Publish-Subscribe。

6.简述数据预处理的原理。

数据预处理（Data Preprocessing）是指在对数据进⾏挖掘以前，需要对原始数据进⾏清理、集合和变换等⼀系列处理⼯作，以达到挖掘算法进⾏知识获取研究所要求的最低规范和标准。通过数据预处理⼯作，可以使残缺的数据完整，并将错误的数据纠正、多余的数据去除，进⽽将所需的数据进⾏数据集成。数据预处理的常见⽅法有数据清洗、数据集成和数据变换。

7.数据清洗有哪些⽅法？

（1）填充缺失值。常⽤处理⽅法：忽略元组、⼈⼯填写缺失值、使⽤⼀个全局变量填充缺失值、⽤属性的均值填充缺失值、⽤同类样本的属性均值填充缺失值、使⽤最可能的值填充缺失值。

（2）光滑噪声数据。⽅法：分箱、回归、聚类。

（3）数据清洗过程，包括检测偏差和纠正偏差。

8.数据集成需要重点考虑的问题有哪些？

（1）模式集成和对象匹配问题。

（2）冗余问题。

（3）元组重复。

（4）数据值冲突的检测与处理问题。

9.数据变换主要涉及哪些内容？

（1）光滑。去除数据中的噪声。

（2）聚集。对数据进⾏汇总或聚集。

（3）数据泛化。使⽤概念分层，⽤⾼层概念代替底层或“原始”数据。

（4）规范化。将属性数据按⽐例缩放，使之落⼊⼀个⼩的特定区间。

（5）属性构造。可以构造新的属性并添加到属性集中，以帮助挖掘过程。

10.分别简述常⽤ETL⼯具。

起诉离婚需要准备什么材料>无可奈何花落去全诗　ETL是⽤来描述将数据从源端经过提取、转换、装⼊到⽬的端的过程。

常⽤⼯具有：　

优秀教师先进材料

（1）PowerCenter。Informatica的PowerCenter是⼀个可拓展、⾼性能企业数据集成平台，应⽤于各种数据集成流程，通过该平台可实现⾃动化、重复使⽤及灵活性。

（2）IBM Datastage。IBM InfoSphere Datastage是⼀款功能强⼤的ETL⼯具，是IBM数据集成平台IBM Information Server的⼀部分，是专门的数据提取、数据转换、数据发布⼯具。

（3）Kettle。Kattle是Pentaho的ETL⼯具，Pentaho是⼀套开源的解决⽅案。Kattle是⼀款国外优秀的开源ETL⼯具，由纯Java编写，可以在Windows、Linux、UNIX上运⾏，⽆需安装，数据抽取⾼效稳定。

慧智精品网

数据采集与预处理

发表评论

推荐文章

大学生模拟股票买a股还是b股

管理制度ab股章程

公司开业庆典的祝福语

企业开业祝福贺词

祝年会成功举办的贺词(精选50句)

热门文章

公司周年庆典祝福语大全(精选3篇)

祝事业发展顺利的祝贺词

公司开业祝贺词简短

祝福公司的话

公司开业贺词精选15篇

庆祝公司开张大吉简短祝福语

对公司的祝福语大全(多篇)

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

农历三月古文说法

世界各国是如何庆祝儿童节的

38妇女节意义

我和班长同居了知乎文

能打动女友哭的表白信

感动告白情书写给女孩(2篇)

真心话大冒险

泡男人才是正经事

恋爱之前必看准则

最新文章

对公司的祝福语简短

祝愿集团越来越好的贺词

祝公司发展好的贺词

兄弟公司新开业祝福语

公司开业贺词(精选15篇)

祝贺新公司开业贺词

标签列表