《Hadoop大数据开发基础》教学大纲
课程名称:Hadoop大数据开发基础
课程类别:必修
适用专业:大数据技术类相关专业
那个成语形容夫妻情深总学时:48学时(其中理论26学时,实验22学时)
总学分:3.0学分
一、课程的性质
本课程是为大数据技术类相关专业学生开设的课程。随着时代的发展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop作为处理大数据的分布式存储和计算框架,得到了国内外大小型企业广泛的应用。Hadoop是一个可以搭建在廉价服务器上的分布式集系统架构,它具有可用性高、容错性高和可扩展性高等优点。由于它提供了
一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。经过十多年的发展,目前Hadoop已经成长为一个全栈式的大数据技术生态圈,并在事实上成为应用最广泛最具有代表性的大数据技术。因此,学习Hadoop技术是从事大数据行业工作所必不可少的一步。
二、课程的任务
通过本课程的学习,使学生学会搭建Hadoop完全分布式集,掌握HDFS的原理和基础操作,掌握MapReduce原理架构、MapReduce程序的编写。为将来从事大数据挖掘研究工作以及后续课程的学习奠定基础。
三、课程学时分配
序号 | 教学内容 | 理论学时 | 实验学时 | 其它 |
1 | 第1章 Hadoop介绍 | 2 | 0 | |
2 | 第2章 Hadoop集的搭建及配置 | 4 | 6 | |
3 | 第3章 Hadoop集基础操作 | 4 | 2 | |
4 | 第4章 MapReduce入门编程 | 5 | 4 | |
中国疫情大概什么时候能结束5 | 第5章 MapReduce进阶编程 | 6 | 6 | |
6 | 第6章 项目案例:电影网站用户性别预测 | 5 | 4 | |
总计 | 26 | 22 | ||
四、教学内容及学时安排
1.理论教学
序号 | 章节名称 | 主要内容 | 教学目标 | 学时 |
1 | Hadoop介绍 | 1. Hadoop的发展历史 2. Hadoop的特点 3. Hadoop的核心组件 4. Hadoop的生态系统 5. Hadoop的应用场景 | 1. 了解Hadoop的来源与特点 网易否决暴雪顺延六个月提案2. 掌握Hadoop的核心组件内容 | 学校花圃的标语 2 |
2 | Hadoop集的搭建及配置 | 1. 设置固定IP的方法 2. 设置远程连接虚拟机 3. Linux在线安装软件的方法 双离合是什么意思4. 在Window和Linux下安装Java 5. 了解Hadoop集相关配置文件 6. SSH免密码登录配置 7. 时间同步服务配置 8. 启动关闭Hadoop集以及查看Hadoop集监控 | 1. 掌握安装配置虚拟机和安装JDK 2. 掌握搭建Hadoop完全分布式集环境的方法 | 4 |
3 | Hadoop集基础操作 | 1. 了解HDFS的操作方法 2. MapReduce任务的运行和中断方法 3. 集监控的查看方法 | 1. 学会查看Hadoop集的基本信息 2. 掌握HDFS的基本操作 3. 掌握运行MapReduce任务的命令 | 4 |
4 | MapReduce入门编程 | 1. Eclipse安装 2. MapReduce原理 3. MapReduce的编程逻辑 | 1. 掌握MapReduce的原理 2. 掌握MapReduce程序的编程逻辑 | 5 |
5 | MapReduce进阶编程 | 1. MapReduce的输入及输出格式 2. Hadoop Java API使用方法 3. 自定义键值对方法 4. Combiner及Partitioner的原理与编程 5. 在Eclipse中提交MapReduce任务的方法 | 1. 掌握MapReduce框架中的进阶应用,包括自定义键值对、Combiner、Partitioner等 | 6 |
6 | 项目案例:电影网站用户性别预测 | 1. KNN算法原理与实现步骤 2. 案例要求与任务 3. MapReduce编程逻辑 4. 分类算法的评价指标 | 1. 了解KNN算法与案例需求,通过MapReduce实现数据预处理以及KNN算法 | 5 |
学 时 合 计 | 26 | |||
2.实验教学
序号 | 实验项目名称 | 实验要求 | 学时 |
1 | 安装配置虚拟机 | 1. 在VMware创建Linux虚拟机 2. 配置虚拟机的IP为固定IP 3. 配置本地Yum源 4. 安装软件 | 1 |
2 | 安装Java | 1. 在Windows系统安装Java 2. 在Linux虚拟机上安装Java | 0.5 |
3 | 搭建Hadoop完全分布式集 | 1. 按照配置文档配置Hadoop集 2. 克隆3个从节点,修改固定IP和主机名 3. 配置主节点到从节点的ssh无密码登录 4. 配置NTP时间同步服务 5. 格式化集并启动集 | 3 |
4 | 为Hadoop集增加一个节点 | 1. 克隆一个节点slave4 2. 修改slave4的固定IP和主机名称 3. 在主节点和所有子节点修改slaves文件,添加slave4节点的信息。 4. 配置SSH免密码登录到slave4。 5. 在新增节点启动DataNode、NodeManager进程 | 1 |
5 | 编写Shell脚本同步集时间 | 1. 新建文件 2. 编写时间同步命令 3. 运行时间同步脚本 | 0.5 |
6 | 查看Hadoop集的基本信息 | 1. 启动Hadoop集 2. 查看50070端口信息 3. 查看8088端口信息 | 0.5 |
7 | 上传文件到HDFS目录 | 1. 上传到HDFS目录/user/root/ 2. 笔记本键盘不能用了查看HDFS文件系统中数据的存储情况 | |
8 | 运行首个MapReduce任务 | 1. 运行示例程序中的WordCount程序 2. 查看任务运行时8088端口的任务状态与资源使用情况 | 0.5 |
9 | 统计文件中所有单词的平均长度 | 1. 上传数据到HDFS 2. 调用示例程序中的wordmean程序统计单词的平均长度 | 0.5 |
10 | 查询与中断MapReduce任务 | 1. 运行多个MapReduce任务 2. 查看任务状态与资源使用情况 3. 中断其中一个任务 4. 再次查看任务状态与资源情况 | 0.5 |
11 | 使用Eclipse创建MapReduce工程 | 1. 在Eclipse中配置MapReduce开发环境 2. 新建MapReduce工程 | 0.5 |
12 | 编程实现按日期统计访问次数 | 1. 上传数据到HDFS 2. 编写MapReduce 3. 打包程序 4. 在集中提交MapReduce任务 | 0.5 |
13 | 编程实现按访问次数排序 | 1. 编写MapReduce程序 2. 打包程序并上传到Linux节点 3. 提交MapReduce任务 | 1 |
14 | 获取成绩表的最高分记录 | 1. 在Eclipse中编写程序 2. 打包上传到Linux节点并提交任务 | 1 |
15 | 实现对两个文件中数据的合并与去重 | 1. 上传数据到HDFS 2. 编写MapReduce程序 3. 打包程序 4. 上传到Linux节点 5. 提交MapReduce任务 | 1 |
16 | 筛选日志文件生成序列化文件 | 1. 上传数据到HDFS 2. 编程实现数据过滤 3. 打包程序上传到master节点并运行 | 1 |
17 | Hadoop Java API读取序列化日志文件 | 1. 读取序列化数据 | 0.5 |
18 | 优化日志文件统计程序 | 1. 自定义Combiner 2. 自定义Partitioer 3. 自定义键类型 4. 编程实现日志数据统计任务 | 2 |
19 | Eclipse提交日志文件统计程序 | 1. 在Eclipse设置集连接的环境配置 2. 使用ToolRunner辅助类编程并提交任务 3. 自己打包或使用自动打包程序编译JAR文件 4. 在Eclipse直接运行程序 | 0.5 |
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论