本书从系统的角度出发,按照大数据处理流程的顺序,全面介绍了大数据技术的基础知识,提升读者对大数据的认知。全书分3个逻辑层次,共9章。
本书作为大数据技术的基础教材,目的不在于让读者对具体的某个技术平台细节有很深的理解,而是尽量让读者体会整个大数据处理的技术流程,使读者能够掌握大数据技术的整体框架,能够在未来的学习和工作中通过系统化的大数据思维能力为所遇到的问题提供解决思路和方案。
本书作为大数据技术的入门教材,能够帮助希望成为信息时代冲浪者的读者,从一个外行跨入大数据技术的大门,帮助大数据技术的初学者尽快了解大数据技术。
本书从系统的角度出发,按照大数据处理流程的顺序,全面介绍了大数据技术的基础知识,提升读者对大数据的认知。
孟宪伟,辽宁科技学院-曙光大数据学院教授,硕士学位,主持省市级项目8项,发表学术论文18篇,研究领域为社会智能与复杂数据处理。中国教育信息化学会理事,本溪市网络与信息安全专家。
第1章 什么是大数据 1
1.1 人类信息文明的发展 1
1.2 大数据时代的来临 2
1.2.1 信息技术的发展 3
1.2.2 数据产生方式的变革 5
1.3 大数据的主要特征 7
1.3.1 大数据的数据特征 8
1.3.2 大数据的技术特征 10
1.4 大数据的社会价值 11
习题 12
本章参考文献 13
第2章 大数据技术基础 14
2.1 计算机操作系统 14
2.1.1 什么是操作系统 14
2.1.2 Linux操作系统 16
2.2 编程语言 18
2.2.1 编程语言的发展与种类 18
2.2.2 Python语言 21
2.3 数据库 23
2.3.1 SQL数据库的发展与成熟 24
2.3.2 NoSQL数据库及其特点 25
2.3.3 NoSQL数据库的分类 27
2.3.4 NewSQL数据库 30
2.4 算法 30
2.4.1 什么是算法 30
2.4.2 大数据时代的算法 32
2.5 大数据系统 33
2.5.1 Hadoop平台 33
2.5.2 Spark平台 35
2.6 大数据的数据类型 37
2.6.1 结构化数据 38
2.6.2 半结构化数据 38
2.6.3 非结构化数据 39
2.7 大数据应用的开发流程 40
2.8 数据科学算法的应用流程 41
习题 42
本章参考文献 43
第3章 数据采集与预处理 44
3.1 大数据的来源 44
3.1.1 传统商业数据 45
3.1.2 互联网数据 45
3.1.3 物联网数据 46
3.2 数据的采集方法 47
3.2.1 系统日志的采集方法 47
3.2.2 网页数据的采集方法 52
3.2.3 其他数据的采集方法 55
3.3 数据预处理 56
3.3.1 影响数据质量的因素 56
3.3.2 数据预处理的目的 59
3.3.3 数据预处理的流程 60
习题 67
本章参考文献 67
第4章 大数据存储与管理 68
4.1 数据存储概述 68
4.1.1 数据的存储介质 68
4.1.2 数据的存储模式 72
4.2 大数据时代的存储管理系统 76
4.2.1 文件系统 76
4.2.2 分布式文件系统 77
4.2.3 数据库 80
4.2.4 键-值数据库 82
4.2.5 分布式数据库 82
4.2.6 关系型数据库 84
4.2.7 数据仓库 85
4.2.8 文档数据库 87
4.2.9 图形数据库 89
4.2.10 云存储 90
习题 93
本章参考文献 93
第5章 大数据计算框架 94
5.1 计算框架 94
5.1.1 批处理框架 94
5.1.2 流式处理框架 95
5.1.3 交互式处理框架 96
5.2 MapReduce 96
5.2.1 MapReduce编程的特点 97
5.2.2 MapReduce的计算模型 97
5.2.3 MapReduce的资源管理框架 101
5.3 Spark 105
5.3.1 Spark的基本知识 105
5.3.2 Spark的生态系统 107
5.3.3 Spark的架构与原理 109
5.3.4 Spark RDD的基本知识 111
习题 115
本章参考文献 115
第6章 数据挖掘 116
6.1 什么是数据挖掘 116
6.2 数据挖掘的对象与价值 119
6.2.1 数据挖掘的对象 119
6.2.2 数据挖掘的价值 121
6.3 数据挖掘常用的技术 123
6.3.1 关联分析 123
6.3.2 分类分析 126
6.3.3 聚类分析 129
6.4 数据挖掘常用的工具 132
6.4.1 RapidMiner 133
6.4.2 WEKA 133
6.4.3 Orange 134
6.4.4 R语言 134
6.4.5 Mining 135
6.5 数据挖掘的典型应用 137
6.5.1 社交媒体领域的应用 137
6.5.2 市场营销领域的应用 137
6.5.3 科学研究领域的应用 138
6.5.4 电信领域的应用 138
6.5.5 教育领域的应用 138
6.5.6 医学领域的应用 139
习题 140
本章参考文献 140
第7章 数据可视化 141
7.1 什么是可视化 141
7.1.1 可视化的含义 141
7.1.2 可视化的发展历程 142
7.1.3 可视化的作用 143
7.2 数据可视化及其分类 144
7.2.1 科学可视化 144
7.2.2 信息可视化 146
7.2.3 可视化分析学 147
7.3 数据可视化工具 147
7.3.1 入门级工具 148
7.3.2 信息图表工具 149
7.3.3 地图工具 152
7.3.4 高级分析工具 155
7.4 数据可视化案例 157
7.4.1 数字美食 157
7.4.2 空中的间谍 157
习题 158
本章参考文献 158
第8章 大数据与云计算 160
8.1 什么是云计算 160
8.1.1 云计算的概念与特点 160
8.1.2 云计算的分类 162
8.1.3 云计算与分布式计算的区别 163
8.1.4 云计算的体系架构 163
8.1.5 云计算需要解决的问题 165
8.1.6 具有代表性的云计算厂商 166
8.2 大数据与云计算的关系 167
8.2.1 云计算将改变大数据分析 168
8.2.2 大数据与云计算的区别和
联系 168
8.2.3 大数据与云计算未来的发展
方向和趋势 169
8.2.4 大数据与云计算在生产生活中的
应用 171
习题 173
本章参考文献 174
第9章 大数据与人工智能 175
9.1 什么是人工智能 175
9.1.1 人工智能的发展历史 176
9.1.2 人工智能的研究方向和方法 182
9.1.3 人工智能面临的问题 184
9.2 数据驱动的智能时代 185
9.2.1 人工智能与大数据 185
9.2.2 产业战略 187
习题 188
本章参考文献 188