深度学习是机器学习研究中的一个活跃领域,《深度学习入门》的宗旨在于为深度 机器学习的初学者提供一本通俗易懂、内容全面、理论深入的学习教材。 本书的内容大体可以分为机器学习基础、顺序传播神经网络的深度学 习、玻尔兹曼机和深度强化学习四个部分,既考虑了通俗性和完整性,又 介绍了深度学习的各个方面。其中机器学习基础部分介绍了神经网络、机 器学习与深度学习的数学基础、典型任务、数据集等;顺序传播神经网络 的深度学习部分介绍了梯度下降法的机器学习、深度学习的正则化、误差 反向传播法、自编码器、卷积神经网络以及循环神经网络等;玻尔兹曼机 部分对图模型神经网络的机器学习进行了深入的介绍;深度强化学习部分 则重点介绍了强化学习中的深度神经网络学习的理论和方法。 通过本书的学习,读者可以快速了解机器学习的全貌,同时在理论上 对其模型和方法进行深入分析和理解,从而为实际的开发打下深厚的理论 基础,为技术创新提供具有启发性的方向和路径。
目 录
译者序
原书序
原书前言
第1章 绪论 1
第2章 机器学习与深度学习 3
2.1 为什么要进行深度学习 3
2.2 什么是机器学习 4
2.2.1 典型任务 4
2.2.2 形式各异的数据集 5
2.3 统计学基础 6
2.3.1 样本和估计 7
2.3.2 点估计 8
2.3.3 极大似然估计 11
2.4 机器学习基础 12
2.4.1 监督学习 13
2.4.2 最小二乘法线性回归 13
2.4.3 基于概率的线性回归 15
2.4.4 最小二乘法与最优法 16
2.4.5 过度拟合与泛化 17
2.4.6 正则化 18
2.4.7 分类 19
2.4.8 分类方法 19
2.4.9 logistic回归 20
2.4.10 softmax回归 21
2.5 特征学习与深度学习的进展 23
2.5.1 特征学习 23
2.5.2 深度学习的出现 24
第3章 神经网络 26
3.1 神经细胞网络 26
3.2 形式神经元 27
3.3 感知器 29
3.3.1 由形式神经元到感知器 29
3.3.2 感知器与马文·明斯基 (Marvin Lee Minsky) 30
3.4 顺序传播神经网络的组成 31
3.4.1 神经元和顺序传播神经网络 31
3.4.2 输入层 32
3.4.3 中间层 33
3.4.4 输出层 34
3.4.5 函数模型 34
3.5 神经网络的机器学习 35
3.5.1 回归 35
3.5.2 二元分类 36
3.5.3 多元分类 37
3.6 激活函数 37
3.6.1 sigmoid函数及其变体 38
3.6.2 正则化线性函数 38
3.6.3 maxout 39
3.7 为什么深度学习是重要的 40
第4章 基于梯度下降法的机器学习
41 4.1 梯度下降法 41
4.1.1 梯度下降法寻求最小值 42
4.1.2 局部极小值问题 43
4.1.3 随机梯度下降法 44
4.1.4 小批量的制作方法 45
4.1.5 收敛和学习率的调度 45
4.2 改进的梯度下降法 46
4.2.1 梯度下降法的问题 46
4.2.2 动量法 47
4.2.3 Nesterov加速梯度下降法 48
4.2.4 AdaGrad 49
4.2.5 RMSprop 50
4.2.6 AdaDelta 50
4.2.7 Adam 51
4.2.8 自然梯度下降法 53
4.3 权重参数初始值的选取方法 53
4.3.1 LeCun初始化 53
4.3.2 Glorot 54
4.3.3 He初始化 54
4.4 训练预处理 55
4.4.1 数据的规格化 55
4.4.2 数据的白化 55
4.4.3 图像数据的局部对比度
第5章 深度学习的正则化 59
5.1 泛化性能与正则化 59
5.1.1 泛化误差与过度学习 59
5.1.2 正则化 61
5.2 权重衰减 62
5.2.1 权重衰减的效果 62
5.2.2 稀疏正则化和不良条件问题 62 5.3 早期终止 63
5.3.1 什么是早期终止 63
5.3.2 早期终止与权重衰减的关系 64 5.4 权重共享 65 5.5 数据扩增与噪声注入 65
5.5.1 数据扩增与泛化 65
5.5.2 噪声注入与惩罚项 66
5.6 bagging算法 66 5.7 dropout 67
5.7.1 dropout学习 67
5.7.2 dropout学习的预测 69
5.7.3 dropout理论的证明 70
5.8 深度表示的稀疏化 72
5.9 批量规格化 72
5.9.1 内部协变量移位 72
5.9.2 批量规格化 73
第6章 误差反向传播法 74
6.1 Perceptron(感知器)和delta 学习规则 74 6.2 误差反向传播法 76
6.2.1 参数微分的复杂度和模型 76
6.2.2 误差函数的梯度 78
6.2.3 反向传播计算的初始值 81
6.2.4 梯度的计算 81
6.2.5 delta的意义 82
6.3 误差反向传播法的梯度快速 计算 82
6.4 梯度消失与参数爆炸及其 对策 84
6.4.1 预学习 85
6.4.2 ReLU函数 85
第7章 自编码器 87
7.1 数据压缩与主成分分析 87
7.2 自编码器基础及应用 90
7.2.1 计时沙漏型神经网络 90
7.2.2 由重构误差进行的学习 91
7.2.3 编码器的作用 92
7.2.4 基于自编码器的主成分分析 93 7.3 稀疏自编码器 93
7.3.1 自编码器的稀疏化 93
7.3.2 稀疏自编码器的误差反向传播 7.4 堆栈式自编码器及预学习 97
7.4.1 堆栈式自编码器 97
7.4.2 预学习 98
7.5 降噪自编码器 98
7.6 压缩式自编码器 99
7.6.1 压缩式自编码器流形学习 99
7.6.2 与其他自编码器的关系 100
第8章 卷积神经网络 101
8.1 一次视觉功能和卷积 101
8.1.1 黑贝尔和威杰尔的层假说 101
8.1.2 神经网络与卷积
102 8.2 卷积神经网络 104
8.2.1 图像数据的通道 104
8.2.2 卷积层 104
8.2.3 1×1卷积 * 107
8.2.4 因子化卷积 * 107
8.2.5 步幅 108
8.2.6 填充 108
8.2.7 池化层 110
8.2.8 局部对比规格化层 * 111
8.2.9 局部响应规格化层 * 111
8.2.10 神经网络的组成 111
8.3 CNN的误差反向传播法 112
8.3.1 卷积层 112
8.3.2 融合层 113
8.4 完成学习的模型和迁移学习 114
8.5 CNN会捕捉到哪些模式 114
8.6 反卷积网络 * 115
8.7 Inception组件 * 116
第9章 循环神经网络 117
9.1 时间序列数据 117
9.2 循环神经网络 118
9.2.1 循环和递归 118
9.2.2 实时循环学习法 119
9.2.3 网络的展开 121
9.2.4 通时的误差反向传播法 121
9.3 机器翻译的应用 123
9.4 RNN的问题 123
9.5 长短时记忆 124
9.5.1 记忆细胞 124
9.5.2 门 125
9.5.3 LSTM 125
9.5.4 LSTM的正向传播 126
9.5.5 LSTM的反向传播 127
9.5.6 门控循环神经元 * 129
9.6 循环神经网络与自然语言的 处理 * 130
9.6.1 Seq2Seq学习 131
9.6.2 神经会话模型 132
第10章 玻尔兹曼机 133
10.1 图模型与概率推论 133
10.1.1 有向图模型 * 133
10.1.2 无向图模型 * 136
10.2 有/无隐性变量的玻尔 兹曼机 139
10.2.1 没有隐性变量的玻尔兹曼机
10.2.2 具有隐性变量的玻尔兹曼机
10.3 玻尔兹曼机的学习及计算量的 爆发 142
10.3.1 没有隐性变量的情况 142
10.3.2 对数似然函数的凸性 144 10.3.3 梯度上升法和计算量 146
10.3.4 通过散度的学习 147
10.3.5 有隐性变量的情况 147
10.4 吉布斯采样和玻尔兹曼机 150
10.4.1 马尔可夫链 150
10.4.2 Google与马尔可夫链 152
10.4.3 稳定分布 153
10.4.4 马尔可夫链蒙特卡洛法 154
10.4.5 吉布斯采样与玻尔兹曼机 155 10.5 平均场近似 159
10.6 受限玻尔兹曼机 162
10.6.1 受限玻尔兹曼机的学习 164
10.6.2 块状化的吉布斯采样 166 10.7 对比散度法及其理论 167
10.7.1 对比散度法为什么行得通 169
10.7.2 对比散度的最小化 173
10.7.3 持续对比散度法 (PCD法) 174 10.8 深度信念网络 175
10.8.1 DBN的预学习 177
10.8.2 DBN的调优 179
10.8.3 从DBN的抽样 180
10.8.4 采用DBN的推论 181
10.9 深度玻尔兹曼机 181
10.9.1 DBM的预学习 182
10.9.2 DBM的调优 185
10.9.3 向顺序传播神经网络的转换
第11章 深度强化学习 188
11.1 强化学习 188
11.1.1 马尔可夫决策过程 189
11.1.2 贝尔曼方程式及最佳策略 190
11.1.3 TD误差学习 194
11.1.4 Q学习 195
11.2 近似函数与深度Q网络 197
11.2.1 Q学习与近似函数 197
11.2.2 深度Q学习 199
11.3 雅达利游戏和DQN 201
11.4 策略学习 203
11.4.1 基于梯度上升法的策略学习
11.4.2 策略梯度定理的证明
11.5 AlphaGo 205
11.5.1 蒙特卡洛树搜索(MCTS)的构想
11.5.2 SL策略网络 206
11.5.3 Roll out策略 207
11.5.4 LR策略网络 207
11.5.5 价值网络 208
11.5.6 策略与价值网络进行的蒙特卡洛树搜索
附录 210 附录A 概率基础 210
A.1 随机变量和概率分布 210
A.2 连续随机变量和概率密度函数 212
A.3 期望值与方差 214
A.4 信息量与散度 215
附录B 变分法 217
B.1 泛函数 217
B.2 欧拉·拉格朗日方程式
217 参考文献 219