本书结合开源和面向商业的计算平台,从实用的角度,全面系统阐述数据分析技术及其应用,内容涵盖机器学习基础、深度学习、人工智能、统计学和进化学习等。
需要进行分析且在某些情况下需要实时处理的数据大量出现,例如医学应用中的X射线图像、网络安全数据、犯罪数据、电信和股票市场数据、健康记录、商业分析数据等,这迫使人们探索处理超大量数据的快速算法。包括R、RapidMiner和Weka在内的应用程序和平台为分析提供了基础,但这些平台的使用者往往很少关注或根本不关注对数据结果有很大影响的底层数学和处理过程,导致无法解释结果或纠正错误,甚至无法发现错误。
本书试图通过提供一些大数据分析中较受欢迎的技术来弥补这一差距。当使用广泛可用的开源和商业化计算平台、语言和可视化系统进行大数据分析时,本书相当有用。与这些平台结合在一起,本书提供了处理大数据所需的一整套工具,可以快速实现和应用。
本书对机器学习基础、深度学习、人工智能、统计和演化学习的综合概念进行了充分的解释,提供了相关的应用程序,适合本科生、研究生和大数据分析爱好者阅读。
本书可以缓解人们对数据分析相关数学知识的恐惧,并有助于开发人工智能、环境传感器数据建模和分析、健康信息学、商业数据分析、物联网数据及深度学习应用。
二十多年前,世界上许多电子工程和计算实验室都致力于信号处理研究。信号处理专家通常大量应用线性代数和微积分从信号中获得洞察。近年来,信号处理概念与统计数据分析相结合,开创了大数据分析的新领域。信号处理的再生打开了许多组织作为高性能工业数据应用金矿的数据存储库。数据分析应用概念源自应用统计学、数据挖掘、人工智能和深度学习。
本书中的许多概念都是对深度学习和人工智能基础知识的简化。在本书中,我们解释了基本的数学概念,并对研究生和准研究生经常感到困难的课题给予了极大的关注。本书涵盖卡尔曼滤波器、马尔可夫链、隐马尔可夫模型(HMM)、神经网络、循环神经网络、卷积神经网络、概率神经网络、支持向量机、遗传算法、有限状态机和计算图。关于统计学的章节假定读者具备本科阶段的统计学基础知识,对更难理解的概念进行了深入的解释,包括主成分分析,以及使用概率生成函数、矩母函数、特征函数的统计分布。
本书中介绍的大多数算法基础都是稳定的,信号处理和应用统计专家已经使用了数十年。它们同样适用于生物信息学、数据聚类和分类、数据可视化、传感器应用和跟踪。
本书主要针对研究生课程,提供了捕获、理解、分析、设计和开发数据分析框架所需的相关数学工具与概念,还简化了数据分析软件程序的开发以及数据分析在各个行业中的应用。通过简化算法并使用相关的工作示例,本书能帮助你理解将来继续学习数据分析时使用的其他概念。
本书有两章来自我以前的研究生,还有一章来自其他人。这些章节是长期应用基本概念的结果。我们向教师、研究生和导师、课程和算法设计师、数据和大数据分析以及深度学习领域的开发人员推荐本书。有效掌握这些基础内容,你将有能力获得关于数据分析和深度学习的更深入的实践见解。
译者序
前言
致谢
关于作者
贡献者名单
缩略语
第1章 马尔可夫链及其应用1
1.1简介1
1.2定义1
1.2.1状态空间2
1.2.2轨迹2
1.3使用马尔可夫链的预测5
1.3.1初始状态5
1.3.2长期概率6
1.4马尔可夫链的应用8
第2章隐马尔可夫建模10
2.1隐马尔可夫建模表示法10
2.2释放概率11
2.3隐马尔可夫模型12
2.3.1建立HMM12
2.3.2图形形式的HMM13
2.4HMM中的三大问题16
2.4.1表示法16
2.4.2问题1的解决方案:似然估计16
2.5状态转移表19
2.5.1输入符号表20
2.5.2输出符号表20
2.6问题3的解决方案:找到HMM20
2.7练习21
第3章卡尔曼滤波器入门23
3.1简介23
3.2标量形式23
3.3矩阵形式26
3.3.1状态变量的模型27
3.3.2状态的高斯表示29
3.4状态矩阵32
3.4.1对象在单个方向上移动的
状态矩阵32
3.4.2二维运动对象的状态矩阵35
3.4.3在三维空间中移动的对象36
3.5带有噪声的卡尔曼滤波器模型38
参考文献38
第4章卡尔曼滤波器II39
4.1简介39
4.2卡尔曼滤波器中的处理步骤39
4.2.1协方差矩阵39
4.2.2协方差矩阵的计算方法41
4.2.3卡尔曼滤波器中的迭代45
第5章遗传算法50
5.1简介50
5.2遗传算法的步骤50
5.3遗传算法的相关术语51
5.4适应度函数52
5.5选择54
5.5.1轮盘赌54
5.5.2交叉54
5.6化单个变量的函数56
5.7连续遗传算法58
5.7.1地形图的海拔58
5.7.2遗传算法在传感器温度记录中的应用60
参考文献61
第6章计算图的微积分62
6.1简介62
6.2复合表达式63
6.3计算偏导数63
6.4积分计算66
6.4.1梯形法则66
6.4.2辛普森法则67
6.5多径复合导数67
第7章支持向量机69
7.1简介69
7.2支持向量机的数学基础70
7.2.1超平面简介70
7.2.2平行超平面71
7.2.3两平行平面之间的距离72
7.3支持向量机问题73
7.3.1问题定义73
7.3.2线性可分情况73
7.4超平面的定位(素数问题)75
7.4.1确定边界75
7.4.2点xi与分离超平面的距离76
7.4.3求解超平面问题77
7.5拉格朗日优化函数78
7.5.1单约束优化78
7.5.2多约束优化79
7.5.3Karush-Kuhn-Tucker条件81
7.6SVM优化问题81
7.6.1原始SVM优化问题81
7.6.2对偶优化问题82
7.7线性SVM数据84
7.7.1松弛变量85
7.7.2使用核的非线性数据分类86
参考文献90
第8章人工神经网络91
8.1简介91
8.2神经元91
第9章神经网络训练101
9.1简介101
9.2神经网络架构101
9.3反向传播模型101
9.4带有计算图的反向传播示例104
9.5反向传播104
9.6神经网络实用训练106
9.6.1前向传播106
9.6.2反向传播108
9.7权重方法的初始化111
9.7.1Xavier初始化111
9.7.2批处理标准化112
9.8结论112
参考文献113
第10章循环神经网络114
10.1简介114
10.2实例114
10.3原理116
第11章卷积神经网络124
11.1简介124
11.2卷积矩阵124
11.3卷积核125
11.4卷积神经网络术语129
11.4.1概念和超参数129
11.4.2CNN处理阶段131
11.4.3池化层133
11.4.4全连接层134
11.5CNN设计原则134
11.6结论135
参考文献135
第12章主成分分析136
12.1简介136
12.2定义136
12.3主成分计算141
12.3.1使用向量投影的PCA141
12.3.2使用协方差矩阵进行PCA计算142
12.3.3使用奇异值分解的PCA144
12.3.4PCA的应用145
参考文献146
第13章矩母函数147
13.1随机变量的矩147
13.1.1随机变量的中心矩147
13.1.2矩特性148
13.2一元矩母函数149
13.3矩母函数的级数表示150
13.3.1概率质量函数的性质151
13.3.2概率分布函数f(x)的性质151
13.4离散随机变量的矩母函数151
13.4.1伯努利随机变量151
13.4.2二项随机变量152
13.4.3几何随机变量153
13.4.4泊松随机变量153
13.5连续随机变量的矩母函数154
13.5.1指数分布154
13.5.2正态分布154
13.5.3伽马分布155
13.6矩母函数的性质156
13.7多元矩母函数156
13.8矩母函数的应用157
第14章特征函数158
14.1简介158
14.2离散单随机变量的特征函数159
14.2.1泊松随机变量的特征函数159
14.2.2二项随机变量的特征函数159
14.2.3连续随机变量的特征函数159
第15章概率生成函数161
15.1简介161
15.2离散概率生成函数161
15.2.1概率生成函数的性质162
15.2.2伯努利随机变量的概率生成函数163
15.2.3二项随机变量的概率生成函数163
15.2.4泊松随机变量的概率生成函数163
15.2.5几何随机变量的概率生成函数164
15.2.6负二项随机变量的概率生成函数165
15.3概率生成函数在数据分析中的应用167
15.3.1离散事件应用167
15.3.2传染病建模168
参考文献170
第16章基于人工神经网络的数字身份管理系统171
16.1简介171
16.2数字身份度量171
16.3身份解析172
16.4生物识别系统架构173
16.4.1指纹识别174
16.4.2人脸识别174
16.5信息融合175
16.6人工神经网络176
16.7多模式数字身份管理系统实现177
16.7.1终端、指纹扫描仪和摄像头177
16.7.2指纹和人脸识别SDK178
16.7.3数据库178
16.7.4验证:连接到主机并选择验证178
16.8结论179
参考文献179
第17章物联网数据分类的概率神经网络分类器182
17.1简介182
17.2概率神经网络182
17.3广义回归神经网络184
17.4向量量化GRNN185
17.5试验工作188
17.6结论与未来工作189
参考文献189
第18章分层概率有限状态机的MML学习与推断191
18.1简介191
18.2有限状态机和PFSM192
18.2.1有限状态机的数学定义192
18.2.2状态图中的FSM表示192
18.3PFSM的MML编码和推断195
18.3.1建模PFSM195
18.3.2使用MML推断PFSM198
18.4分层概率有限状态机203
18.4.1定义HPFSM204
18.4.2HPFSM假设H的MML断言代码205
18.4.3HPFSM转移的编码206
18.5试验207
18.5.1人工数据集试验207
18.5.2ADL数据集试验211
18.6小结214
参考文献215
练习解答217