《数据馆员的Hadoop简明手册》旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。
本手册力求简单、通俗、易懂,既不泛泛之谈,也不过早深入细节,而是力求把握重点。事实上,唯有实践才能真正理解Hadoop的有趣之处和局限之处,但在实践之前,或者考虑选择架构之前,如果有这么一本手册,会容易理解、沟通及评估。
《数据馆员的Hadoop简明手册》包括5个部分。第1章概述分布式大数据的基本概念,以及开源软件Hadoop的历史、生态体系及主要版本的变化。第2章概述核心架构中的计算资源分配、列式计算的工具及索引。第3章概述分布式计算的MapReduce方案,这也是*为通用的一种方案,能满足海量数据的处理。第4章概述如何优化Hadoop的案例。*后,附录介绍Hado叩家族产品。
顾立平(Alan Ku),博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议;在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是:好做事(态度)、做好事(方向)、做事好(目标)。
第1章 Hadoop概念
1.1 Hadoop简介
1.1.1 Hadoop是什么
1.1.2 Hadoop形成的历史
1.1.3 Hadoop在云计算和大数据中的地位
1.1.4 Hadoop与Google FS的关系
1.1.5 小结
1.2 Hadoop生态系统
1.2.1 Hadoop组成
1.2.2 HDFS
1.2.3 MapReduce
1.3 Hadoop不同版本的变化
1.3.1 Hadoop版本的变化
1.3.2 HDFS→HDFS2
1.3.3 MapReduce 1.0→MapReduce 2.0
第2章 Hadoop的YARN、HBase、Hive组件
2.1 YARN
2.1.1 YARN的基本组成结构
2.1.2 YARN的工作流程
2.2 HBase
2.2.1 NoSQL数据库
2.2.2 HBase分布式数据库
2.3 Hive数据仓库系统
2.3.1 Hive的定义
2.3.2 Hive和数据库的异同
2.3.3 部分查询逻辑实现举例
第3章 MapReduce入门
3.1 MapReduce初析
3.2 MapReduce运行机制
3.3 Map函数和Reduce函数
3.4 Mapper和Reducer抽象类
3.5 Maplkeduce的最小驱动类
3.6 MapReduce的输入与输出
3.6.1 MapReduce的输入InputFormat
3.6.2 MapReduce的输出OutputFormat
3.7 自定义Writable和WritableComparable
3.8 技术详解
3.8.1 Combiner详解
3.8.2 Partitioner详解
3.8.3 Distributed FileSystem详解
3.9 Hadoop工具介绍
3.10 Counter-计数器和自定义Counter计数器
第4章 基于Hadoop二次开发实战
4.1 MapReduce的优化
4.2 Hadoop小文件优化
4.3 任务调度
附录 Hadoop家族产品