《大数据技术原理与操作应用》围绕Hadoop生态圈相关组件系统介绍大数据架构。全书共10章,其中,第1、2章主要介绍Hadoop的概述以及如何搭建Hadoop的集群;第3章~第5章介绍分布式文件系统(HDFS)、分布式计算框架(Ma-pReduce)以及分布式协调服务;第6章介绍Hadoop 2.0新特性,包含YARN和高可用集群的原理。第7章-第9章主要介绍Hadoop生态圈的相关辅助系统,包含Hive、Flume、Sqoop;第10章是综合案例的开发,利用Hadoop的相关组件进行项目的开发,同时加深对Hadoop生态圈的技术的理解。
《大数据技术原理与操作应用》可以作为高职高专计算机相关专业、信息系统相关专业、数据科学相关专业的大数据平台课程教材,也可供一线技术人员参考。
信息社会最重要的特征之一,就是每时每刻都在产生着海量的数据。海量的生产数据、处理数据和应用数据,将伴随着物联网、移动互联网、数字家庭、社会化网络等新一代信息技术应用不断地增长。未来在智慧城市、电信、金融、卫生、电子商务以及电子政务等领域将是大数据技术与应用的最佳行业的沃土,对大数据的处理和分析成为新一代信息技术的融合发展的核心支撑。
本书的章节设置是为适应大数据开发应用产业对高素质技术技能型人才的职业需求,覆盖大数据行业典型工作流程岗位,包括大数据平台与相关工具配置、数据处理与计算、数据分析与可视化展现等。综合项目章节选取典型的大数据真实业务分析应用场景,围绕对Hadoop集群的安装配置、管理及MapReduce计算,并包含大数据处理相关算法应用与软件工具运用,从而激发学生对大数据知识和技术的学习兴趣,提升学生职业素养和职业技能,努力为我国大数据应用产业发展储备及输送人才。
本书理念先进、内容新颖,并以注重实用、提高技能为目的,通过大量的实例和实训内容,帮助读者提高应用技能,本书基于VMware workstation 14平台和Linux Centos 7操作系统为基础搭建Hadoop环境,除了讲解基础原理,更是在操作细节、使用交互等方面给予了详细的介绍。
全书由王倩进行整体规划和内容组织。王倩、阎红负责内容统稿并担任主编,由郑丽、安厚霖、崔俊鹏、潘旭等参与编写。
全书的第1章、第3章、第6章由天津职业大学安厚霖编写;第2章、第4章由天津职业大学郑丽编写;第7章、第9章由天津中德应用技术大学崔俊鹏编写;第5章、第10章由天津职业大学王倩编写;第8章由天津职业大学阎红编写;全书的习题由国网天津市电力公司检修公司潘旭编写。
由于编者水平有限、经验不足,书中难免有错误与疏漏,恳请广大读者和同行批评指正。
第1章 初识Hadoop
1.1 大数据的介绍
1.2 Hadoop的介绍
习题1
第2章 Hadoop集群构建
2.1 Linux系统安装
2.2 Linux系统网络配置
2.3 创建普通用户
2.4 构建Hadoop完全分布式集群环境
2.5 Hadoop平台运行及测试
习题2
第3章 HDFS分布式文件系统
3.1 Hadoop的文件系统
3.2 HDFS的简介
3.3 HDFS的架构及原理
3.4 HDFS的Shell操作
3.5 HDFS的Java API操作
习题3
第4章 MapReduce分布式计算系统
4.1 MapReduce的介绍
4.2 MapReduce运行机制
4.3 案例:使用MapReduce实现反向索引
习题4
第5章 ZooKeeper分布式协调服务
5.1 认识ZooKeeper
5.2 ZooKeeper的数据模型
5.3 ZooKeeper的Watch机制
5.4 ZooKeeper的选举机制
5.5 ZooKeeper分布式集群部署
5.6 ZooKeeper的Shell操作
5.7 ZooKeeper Java API操作
5.8 ZooKeeper应用场景
习题5
第6章 Hadoop2.O新特性
6.1 Hadoop 2.0的改进与提升
6.2 YARN体系结构
6.3 YARN工作流程
6.4 HDFS HA的搭建方法
习题6
第7章 Hive数据仓库
7.1 Hive的介绍
7.2 Hive的安装部署
7.3 Hive的基本操作
习题7
第8章 日志采集系统
8.1 Flume的介绍
8.2 Flume基本使用方法
8.3 Flume采集方案配置说明
8.4 Flume的可靠性保证
8.5 Flume拦截器
8.6 案例——日志采集
习题8
第9章 Sqoop数据迁移
9.1 Sqoop的介绍
9.2 Sqoop数据导入
9.3 Sqoop数据导出
习题9
第10章 综合项目案例
10.1 最高气温统计案例
10.2 电子商务离线数据统计案例
参考文献