作为机器学习的核心,《机器学入门》介绍了基于贝叶斯推论的机器学习,其基本思想是将数据及数据产生的过程视为随机事件,从数据的固有特征开始,通过一系列假设来进行数据的描述,进而构建出与机器学习任务相适应的随机模型,然后通过模型的解析求解或近似求解得出未知事件的预测模型。通过贝叶斯学习,我们可以了解到更多关于数据的信息,进而可以大致清楚进行学习的神经网络的规模和复杂程度。更重要的是,当神经网络学习中出现问题时,通过贝叶斯学习可以找到解决问题的方向和途径。因此,可以说贝叶斯学习是深度神经网络学习的理论基础,也是进行神经网络学习的必修课。本书在内容安排上,尽可能对概率统计和随机过程的基础进行了较为完整的介绍,并对常用的概率分布进行了详尽的分析。在此基础上重点介绍了单一模型及混合模型的贝叶斯推论方法,并结合具体应用进行了扩展和分析。在注重理论介绍的同时也考虑到了实际的应用扩展,从而保证了读者学习的完整性。其所给出的随机模型分析、构建及求解方法力图详尽,对读者进行贝叶斯方法的学习和实际应用具有较高的指导和参考价值。
译者序
原书序
原书前言
第1章 机器学习与贝叶斯学习 1
1.1 什么是机器学习? 1
1.2 机器学习的典型任务 2
1.2.1 回归 2
1.2.2 分类 3
1.2.3 聚类 4
1.2.4 降维 4
1.2.5 其他典型任务 6
1.3 机器学习的两类方法 6
1.3.1 基于工具箱的机器学习 6
1.3.2 基于建模的机器学习 7
1.4 概率的基本计算 8
1.4.1 概率分布 8
1.4.2 概率分布的推定 9
1.4.3 红球和白球问题 11
1.4.4 多个观测数据 13
1.4.5 逐次推论 15
1.4.6 参数未知的情况 15
1.5 图模型 16
1.5.1 有向图 17
1.5.2 节点的附加条件 18
1.5.3 马尔可夫覆盖 20
1.6 贝叶斯学习方法 20
1.6.1 模型的构建和推论 20
1.6.2 各类任务中的贝叶斯推论 21
1.6.3 复杂后验分布的近似 24
1.6.4 基于不确定性的决策 25
1.6.5 贝叶斯学习的优点与缺点 26
第2章 基本的概率分布 30
2.1 期望值30
2.1.1 期望值的定义 30
2.1.2 基本的期望值 30
2.1.3 熵 31
2.1.4 KL散度 32
2.1.5 抽样的期望值近似计算 32
2.2 离散概率分布33
2.2.1 伯努利分布 33
2.2.2 二项分布 35
2.2.3 类分布 36
2.2.4 多项分布 37
2.2.5 泊松分布 38
2.3 连续概率分布40
2.3.1 Beta分布 40
2.3.2 Dirichlet分布 41
2.3.3 Gamma分布 43
2.3.4 一维高斯分布 44
2.3.5 多维高斯分布 45
2.3.6 Wishart分布 48
第3章 基于贝叶斯推论的学习和预测 51
3.1 学习和预测51
3.1.1 参数的后验分布 51
3.1.2 预测分布 523.1.3 共轭先验分布 53
3.1.4 非共轭先验分布的运用 54
3.2 离散概率分布的学习和预测55
3.2.1 伯努利分布的学习和预测 55
3.2.2 类分布的学习和预测 59
3.2.3 泊松分布的学习和预测 61
3.3 一维高斯分布的学习和预测63
3.3.1 均值未知的情况 63
3.3.2 精度未知的情况 66
3.3.3 均值和精度均未知的情况 68
3.4 多维高斯分布的学习和预测71
3.4.1 均值未知的情况 71
3.4.2 精度未知的情况 73
3.4.3 均值和精度均未知的情况 75
3.5 线性回归的例子77
3.5.1 模型的构建 77
3.5.2 后验分布和预测分布的计算 78
3.5.3 模型的比较 80
第4章 混合模型和近似推论 84
4.1 混合模型和后验分布的推论84
4.1.1 使用混合模型的理由 84
4.1.2 混合模型的数据生成过程 85
4.1.3 混合模型的后验分布 87
4.2 概率分布的近似方法88
4.2.1 吉布斯采样 88
4.2.2 变分推论 90
4.3 泊松混合模型的推论93
4.3.1 泊松混合模型 93
4.3.2 吉布斯采样 94
4.3.3 变分推论 97
4.3.4 折叠式吉布斯采样 100
4.3.5 简易实验 105
4.4 高斯混合模型中的推论106
4.4.1 高斯混合模型 106
4.4.2 吉布斯采样 107
4.4.3 变分推论 110
4.4.4 折叠式吉布斯采样 113
4.4.5 简易实验 115
第5章 应用模型的构建和推论 119
5.1 线性降维119
5.1.1 模型 120
5.1.2 变分推论 120
5.1.3 数据的不可逆压缩 123
5.1.4 缺失值内插 124
5.2 非负值矩阵因子分解126
5.2.1 模型 127
5.2.2 变分推论 129
5.3 隐马尔可夫模型132
5.3.1 模型 133
5.3.2 完全分解变分推论 135
5.3.3 结构化变分推论 139
5.4 主题模型143
5.4.1 模型 143
5.4.2 变分推论 146
5.4.3 折叠式吉布斯采样 148
5.4.4LDA模型的应用与扩展 151
5.5 张量分解151
5.5.1 协同过滤 1525.5.2 模型 154
5.5.3 变分推论 155
5.5.4 缺失值的内插 160
5.6 logistic回归161
5.6.1 模型 161
5.6.2 变分推论 162
5.6.3 离散值的预测 165
5.7 神经网络166
5.7.1 模型 167
5.7.2 变分推论 168
5.7.3 连续值的预测 169
附录A 相关计算的补充 171
A.1 基本的矩阵计算171
A.1.1 转置 171
A.1.2 逆矩阵 171
A.1.3 矩阵的迹 172
A.1.4 方阵的行列式 172
A.1.5 正定值矩阵 172
A.2 特殊函数173
A.2.1gamma函数和digamma函数 173
A.2.2sigmoid函数和softmax函数 173
A.3 梯度法174
A.3.1 函数的梯度 174
A.3.2 最速下降法 175
A.3.3 坐标下降法 175
A.4 边缘似然度下限176
A.4.1 边缘似然度和ELBO 176
A.4.2 泊松混合分布的例子 177
参考文献 178