Hadoop大数据开发基础》教学大纲
课程名称:Hadoop大数据开发基础
课程类别:必修
适用专业:大数据技术类相关专业
总学时:48学时(其中理论26学时,实验22学时)
总学分:3.0学分
一、课程的性质
本课程是为大数据技术类相关专业学生开设的课程。随着时代的发展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop作为处理大数据的分布式存储和计算框架,得到了国内外大小型企业广泛的应用。Hadoop是一个可以搭建在廉价服务器上的分布式集系统架构,它具有可用性高、容错性高和可扩展性高等优点。由于它提供了一个开放式
的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。经过十多年的发展,目前Hadoop已经成长为一个全栈式的大数据技术生态圈,并在事实上成为应用最广泛最具有代表性的大数据技术。因此,学习Hadoop技术是从事大数据行业工作所必不可少的一步。
二、课程的任务
通过本课程的学习,使学生学会搭建Hadoop完全分布式集,掌握HDFS的原理和基础操作,掌握MapReduce原理架构、MapReduce程序的编写。为将来从事大数据挖掘研究工作以及后续课程的学习奠定基础。
三、课程学时分配
序号
教学内容
理论学时
实验学时
其它
1
第1章 Hadoop介绍
2
0
2
第2章 Hadoop集的搭建及配置
4
6
3
第3章 Hadoop集基础操作
4
2
4
第4章 MapReduce入门编程
5
4
5
第5章 MapReduce进阶编程
6
6
6
第6章 项目案例:电影网站用户性别预测
5
4
总计
26
22
四、教学内容及学时安排
1.理论教学
序号
章节名称
主要内容
教学目标
学时
1
Hadoop介绍
1. Hadoop的发展历史
2. Hadoop的特点
3. Hadoop的核心组件
4. Hadoop的生态系统
5. Hadoop的应用场景
1. 了解Hadoop的来源与特点
2. 掌握Hadoop的核心组件内容
2
2
Hadoop集的搭建及配置
1. 设置固定IP的方法
2. 设置远程连接虚拟机
3. Linux在线安装软件的方法
4. 在Window和Linux下安装Java
5. 了解Hadoop集相关配置文件
6. SSH免密码登录配置
7. 时间同步服务配置
8. 启动关闭Hadoop集以及查看Hadoop集监控
1. 掌握安装配置虚拟机和安装JDK
2. 掌握搭建Hadoop完全分布式集环境的方法
4
3
Hadoop集基础操作
1. 了解HDFS的操作方法
2. MapReduce任务的运行和中断方法
3. 集监控的查看方法
1. 学会查看Hadoop集的基本信息
2. 掌握HDFS的基本操作
3. 掌握运行MapReduce任务的命令
4
4
MapReduce入门编程
1. Eclipse安装
2. MapReduce原理
3. MapReduce的编程逻辑
1. 掌握MapReduce的原理
2. 掌握MapReduce程序的编程逻辑
5
5
MapReduce进阶编程
1. MapReduce的输入及输出格式
2. Hadoop Java API使用方法
3. 自定义键值对方法
4. Combiner及Partitioner的原理与编程
5. 在Eclipse中提交MapReduce任务的方法
1. 掌握MapReduce框架中的进阶应用,包括自定义键值对、Combiner、Partitioner等
6
6
项目案例:电影网站用户性别预测
1. KNN算法原理与实现步骤
2. 案例要求与任务
3. MapReduce编程逻辑
4. 分类算法的评价指标
1. 了解KNN算法与案例需求,通过MapReduce实现数据预处理以及KNN算法
5
学 时 合 计
26
2.实验教学
序号
实验项目名称
实验要求
学时
1
安装配置虚拟机
1. 在VMware创建Linux虚拟机
2. 配置虚拟机的IP为固定IP
3. 配置本地Yum源
4. 安装软件
1
2
安装Java
1. 在Windows系统安装Java
2. 在Linux虚拟机上安装Java
期中考试成绩查询网址
0.5
3
搭建Hadoop完全分布式集
1. 按照配置文档配置Hadoop集
2. 克隆3个从节点,修改固定IP和主机名
3. 配置主节点到从节点的ssh无密码登录
4. 配置NTP时间同步服务
5. 格式化集并启动集
3
4
为Hadoop集增加一个节点
1. 克隆一个节点slave4
2. 修改slave4的固定IP和主机名称
3. 在主节点和所有子节点修改slaves文件,添加slave4节点的信息。
4. 配置SSH免密码登录到slave4。
5. 在新增节点启动DataNode、NodeManager进程
1
5
编写Shell脚本同步集时间
1. 新建文件
2. 编写时间同步命令
3. 运行时间同步脚本
0.5
6
查看Hadoop集的基本信息
1. 启动Hadoop集
2. 查看50070端口信息
3. 查看8088端口信息
0.5
7
上传文件到HDFS目录
1. 上传到HDFS目录/user/root/
2. 查看HDFS文件系统中数据的存储情况
8
运行首个MapReduce任务
1. 运行示例程序中的WordCount程序
2. 查看任务运行时8088端口的任务状态与资源使用情况
0.5
9
统计文件中所有单词的平均长度
1. 上传数据到HDFS
2. 调用示例程序中的wordmean程序统计单词的平均长度
0.5
10
查询与中断MapReduce任务
1. 运行多个MapReduce任务
2. 查看任务状态与资源使用情况
3. 中断其中一个任务
4. 再次查看任务状态与资源情况
0.5
能拒绝吗
11
使用Eclipse创建MapReduce工程
1. 在Eclipse中配置MapReduce开发环境
2. 新建MapReduce工程
0.5
天津市招考网12
编程实现按日期统计访问次数
1. 上传数据到HDFS
2. 编写MapReduce
3. 打包程序
4. 在集中提交MapReduce任务
0.5
13
编程实现按访问次数排序
1. 编写MapReduce程序
2. 打包程序并上传到Linux节点
3. 提交MapReduce任务
1
14
获取成绩表的最高分记录
附近工厂招工8小时1. 在Eclipse中编写程序
2. 打包上传到Linux节点并提交任务
1
15
实现对两个文件中数据的合并与去重
1. 上传数据到HDFS
2. 编写MapReduce程序
3. 打包程序
4. 上传到Linux节点
5. 提交MapReduce任务
1
16
筛选日志文件生成序列化文件
1. 上传数据到HDFS
2. 编程实现数据过滤
3. 打包程序上传到master节点并运行
1
17
Hadoop Java API读取序列化日志文件
1. 读取序列化数据
0.5
18
优化日志文件统计程序
1. 实时地震查询自定义Combiner
2. 自定义Partitioer
3. 自定义键类型
4. 编程实现日志数据统计任务
2
2023自考4月考试科目
19
Eclipse提交日志文件统计程序
1. 在Eclipse设置集连接的环境配置
2. 使用ToolRunner辅助类编程并提交任务
3. 自己打包或使用自动打包程序编译JAR文件
4. 在Eclipse直接运行程序
0.5