《数据采集与清洗》课程教学大纲
《数据采集与清洗》课程教学大纲
课程基本信息
课程编号:12162
课程名称:数据采集与清洗
英文名称:Data Collection and Cleaning
课程类型:专业课
课程要求:必修
学时/学分:32/2 (讲课学时:24 实验学时:8)
先修课程:程序设计语言、数据结构与算法、数据库系统原理
后续课程:Python数据分析与应用、数据分析与挖掘实践
适用专业:数据科学与大数据技术
二、课程描述
数据采集、清洗是大数据分析的重要步骤,旨在引导学生掌握数据获取的方法和工具,发现并纠正数据中可能存在的错误和不一致,选用适当的方法进行清理,建立有效、一致、可靠的数据源。通过对基本概念和方法的深刻理解,掌握解决实际问题的抽象方法;通过大数据采集和清洗流程的分解,掌握解决问题的工作步骤;通过案例,建立分析数据采集、清洗的实际问题和给出解决方案的能力;通过将应用场景与数据采集、清洗常用软件工具的结合,训练基本操作技术并形成利用理论结合现代化工具解决数据科学领域中工程问题的能力。 通过课程学习,使学生能够应用数据采集和清洗的基本原理和方法、常用工具软件获得并存储有效、可靠的批量数据,解释实验中的现象和数据,并通过信息综合得到合理有效的结论。
三、课程教学目标
1. 能对大数据处理中的数据采集、清洗基本问题进行分析,运用数据采集和清洗的基本技术和方法制定解决方案。(支持毕业能力要求2)
2. 能综合运用先修课程的理论和逻辑思维,结合该课程的方法和技术对数据采集和清洗阶段
中的复杂问题、现象和数据进行综合分析、解释,根据数据不同给出相应的数据清洗方法,并论证方法的适用性和有效性。(支持毕业能力要求2)
3. 能够针对大数据领域中的具体应用问题选择与使用恰当的数据采集工具,对大数据工程问题进行模拟和实现。(支持毕业能力要求5)
4. 能够针对大数据领域中的具体应用问题选择与使用恰当的数据清洗工具,对大数据工程问题进行模拟和实现。(支持毕业能力要求5)
四、教学内容、安排及与教学目标的对应关系
单元
教学内容
单元教学目标
学时
教学
方式
对应课程教学目标
1
一、技术概述
1.1 大数据采集技术
1.2 数据预处理技术
1.3数据清洗概述 
1.3.1 数据清洗简介
1.3.2 数据标准化
1.3.3 数据仓库简介
(1)能正确阐述大数据处理的一般流程;(2)能准确说明数据采集、清洗的概念;(3) 理解数据预处理工作的意义。
2
讲授
1
2
二、数据采集基础
2.1 传统数据采集技术
2.1.1 数据采集概述
2.1.2 数据采集系统架构
2.1.3 数据采集关键技术
2.2 大数据采集基础
2.2.1 数据的发展
2.2.2 大数据来源
2.2.3 大数据采集技术
(1)能阐述数据采集的系统架构;(2)能阐述数据采集的关键技术;(3)了解大数据采集技术的发展状况。
2
讲授
1
3
三、大数据采集架构
3.1 概述
3.2 Chukwa数据采集
3.3 Flume数据采集
3.4 Scribe数据采集
3.5 Kafka数据采集
(1)了解大数据采集的主流平台,并能阐述之间的差异。
2
讲授
自学
1、3
4
四、大数据迁移技术
4.1 数据迁移概念
4.2 数据迁移相关技术
4.2.1 基于主机的迁移方式
4.2.2 基于存储的迁移方式
4.2.3 备份恢复的方式
4.2.4 基于主机逻辑卷的数据迁移
4.2.5 基于数据库的迁移技术
4.2.6 服务器虚拟化的迁移
4.2.7 其他数据迁移技术
4.3 数据迁移工具
4.3.1 Apache Sqoop
4.3.2 ETL
4.4 Kettle数据迁移实例
(1)能解释数据迁移的概念;(2)能说明针对不同应用场景所采用的迁移技术;(3)能说明主流数据迁移工具的基本功能和特点。
2
讲授
1、3
5
五、数据预处理技术
5.1 数据的描述
5.1.1 数据对象与属性类型
5.1.2 数据的统计描述
5.1.3 数据相似性和相异性的度量方法
5.2 数据预处理概述
5.2.1 数据质量
5.2.2 数据预处理的主要任务
5.3 数据清洗
5.4 数据集成
5.5 数据归约
5.6 数据变换
(1) 能描述数据的属性特征;(2)能阐述数据预处理的目标和任务;(3)能对数据预处理各阶段的主要方法和技术进行清晰的描述。
2
讲授
2
6
六、数据格式与编码
6.1 文件文本格式
6.1.1 常见文本格式
6.1.2 xls及xlsx文件格式
6.1.3 JSON文本格式
6.1.4 HTML和XML文本格式
6.2 数据编码
6.3 数据转换
6.3.1 电子表格转换
6.3.2 RDBMS数据转换
(1) 能正确说明Windows和UNIX系统数据常规格式;(2)了解数据编码和格式间相互转换的基本方法。
2
讲授
1
7
七、数据清洗基本技术方法
7.1 ETL入门
7.1.1 ETL解决方案
7.1.2 ETL基本构成
7.1.3 ETL技术选型
7.2 技术路线
7.2.1 文本清洗路线
7.2.2 RDBMS清洗路线
7.2.3 Web内容清洗路线
7.3 ETL工具
7.3.1 ETL功能
7.3.2 开源ETL工具
7.4 ETL子系统
(1) 能理解ETL的概念;(2)能掌握文本、关系数据库、Web数据清洗的基本技术路线法;(3)了解开源ETL工具的功能和工作过程。
2
讲授
自学
1、4
8
数据清洗常用工具及基本操作
8.1 Microsoft Excel数据清洗基本操作
8.2 Kettle简介及基本操作
8.3 OpenRefine简介及基本操作
8.4 DataWrangler简介及基本操作
8.5 Hawk简介及基本操作
(1) 能掌握主流数据清洗工具的使用及其适用场景,重点掌握Kettle的使用;(2) 能选择适当数据清洗工具对具体问题中的数据进行清洗。
2
讲授
自学
4
8.6 上机练习与实训
使用数据清洗工具进行数据清洗练习
使用数据清洗工具对具体问题中的数据进行清洗。
4
实验
1、4
9
九、数据抽取
9.1 文本文件抽取
9.1.1 制表符文本抽取
9.1.2 CSV文件抽取
9.2 Web数据抽取
9.2.1 HTML文件抽取
9.2.2 JSON数据抽取
9.2.3 XML数据抽取
9.3 数据库数据抽取
9.3.1 数据导入导出
9.3.2 ETL工具抽取
(1)掌握实现文本文件Web数据数据库数据抽取的基本知识;(2) 掌握借助Kettle实现文本文件抽取、网页文件抽取、数据库数据抽取增量抽取等。
2
讲授
1、4
9.4 上机练习与实训
增量数据抽取
熟练使用Kettle工具和时间戳等方法对数据库数据进行增量抽取
4
实验
1、4
10
十、数据转换与加载
10.1 数据清洗转换
10.2 数据质量评估
10.3 数据加载 
(1)掌握数据清洗的具体方法;(2)掌握数据转换过程中的数据校验错误处理;(3)掌握数据加载和批量加载技术。
2
讲授
1
11
十一、Web数据采集实例
11.1 网页结构
11.2 网络爬虫概述
11.2.1 网络爬虫的概念
11.2.2 网络爬虫的抓取策略
11.2.3 网页更新策略
11.3 常用网络爬虫方法
11.4 网络爬虫工具
11.5 Python爬虫技术
11.5.1 Python概述
11.5.2 Python爬虫基础
11.5.3 Python安装
11.5.4 Python爬虫实例
11.6 行为日志采集
11.7 文本数据处理
(1) 了解网页爬虫技术采集Web数据的方法;(2) 了解行为日志分析方法。
2
讲授
自学
2、3、4
12
十二、RDBMS数据清洗实例
12.1 准备工作
12.1.1 准备待清洗的数据集
12.1.2 搭建操作环境
12.1.3 数据导入MySQL
12.2 数据库数据清洗
12.2.1 缺失值清洗
12.2.2 格式内容清洗
12.2.3 逻辑错误清洗
12.2.4 非需求数据清洗
12.3 数据脱敏处理
(1)掌握关系型数据库数据清洗方法;(2)掌握敏感数据脱敏处理方法
收集数据的方法
2
讲授
2、3、4
五、其他教学环节(课外教学环节、要求、目标)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。