内容简介
本书围绕机器学习算法中涉及的概率统计知识展开介绍,沿着概率思想、变量分布、参数估计、随机过程和统计推断的知识主线进行讲解,结合数学的本质内涵,用浅显易懂的语言讲透深刻的数学思想,帮助读者构建理论体系。同时,作者在讲解的过程中注重应用场景的延伸,并利用Python工具无缝对接工程应用,帮助读者学以致用。
?全书共5章。
?第1章以条件概率和独立性作为切入点,帮助读者建立认知概率世界的正确视角。
?第2章介绍随机变量的基础概念和重要分布类型,并探讨多元随机变量间的重要关系。
?第3章介绍极限思维以及蒙特卡罗方法,并重点分析极大似然估计方法以及有偏无偏等重要性质,*后拓展到含有隐变量的参数估计问题,介绍EM算法的原理及其应用。
?第4章由静态的随机变量过渡到动态的随机过程,重点介绍马尔可夫过程和隐马尔可夫模型。
?第5章聚焦马尔可夫链-蒙特卡罗方法,并列举实例展示Metropolis-Hastings和Gibbs的具体采样过程。
序
前言
第1章 概率思想:构建理论基础1
1.1 理论基石:条件概率、独立性与贝叶斯1
1.1.1 从概率到条件概率1
1.1.2 条件概率的具体描述2
1.1.3 条件概率的表达式分析3
1.1.4 两个事件的独立性4
1.1.5 从条件概率到全概率公式5
1.1.6 聚焦贝叶斯公式6
1.1.7 本质内涵:由因到果,由果推因7
1.2 事件的关系:深入理解独立性8
1.2.1 重新梳理两个事件的独立性8
1.2.2 不相容与独立性8
1.2.3 条件独立9
1.2.4 独立与条件独立11
1.2.5 独立重复实验11
第2章 变量分布:描述随机世界13
2.1 离散型随机变量:分布与数字特征13
2.1.1 从事件到随机变量13
2.1.2 离散型随机变量及其要素14
2.1.3 离散型随机变量的分布列15
2.1.4 分布列和概率质量函数16
2.1.5 二项分布及二项随机变量17
2.1.6 几何分布及几何随机变量21
2.1.7 泊松分布及泊松随机变量24
2.2 连续型随机变量:分布与数字特征27
2.2.1 概率密度函数27
2.2.2 连续型随机变量区间概率的计算29
2.2.3 连续型随机变量的期望与方差29
2.2.4 正态分布及正态随机变量30
2.2.5 指数分布及指数随机变量33
2.2.6 均匀分布及其随机变量35
2.3 多元随机变量(上):联合、边缘与条件38
2.3.1 实验中引入多个随机变量38
2.3.2 联合分布列38
2.3.3 边缘分布列39
2.3.4 条件分布列40
2.3.5 集中梳理核心的概率理论44
2.4 多元随机变量(下):独立与相关46
2.4.1 随机变量与事件的独立性46
2.4.2 随机变量之间的独立性47
2.4.3 独立性示例48
2.4.4 条件独立的概念48
2.4.5 独立随机变量的期望和方差50
2.4.6 随机变量的相关性分析及量化方法52
2.4.7 协方差及协方差矩阵52
2.4.8 相关系数的概念54
2.5 多元随机变量实践:聚焦多元正态分布55
2.5.1 再谈相关性:基于二元标准正态分布55
2.5.2 二元一般正态分布57
2.5.3 聚焦相关系数60
2.5.4 独立和相关性的关系64
2.6 多元高斯分布:参数特征和几何意义66
2.6.1 从一元分布到多元分布66
2.6.2 多元高斯分布的参数形式67
2.6.3 二元高斯分布的具体示例68
2.6.4 多元高斯分布的几何特征71
2.6.5 二元高斯分布几何特征实例分析74
第3章 参数估计:探寻最大可能77
3.1 极限思维:大数定律与中心极限定理77
3.1.1 一个背景话题77
3.1.2 大数定律78
3.1.3 大数定律的模拟80
3.1.4 中心极限定理83
3.1.5 中心极限定理的工程意义84
3.1.6 中心极限定理的模拟85
3.1.7 大数定律的应用:蒙特卡罗方法86
3.2 推断未知:统计推断的基本框架89
3.2.1 进入统计学89
3.2.2 统计推断的例子90
3.2.3 统计推断中的一些重要概念91
3.2.4 估计量的偏差与无偏估计92
3.2.5 总体均值的估计93
3.2.6 总体方差的估计95
3.3 极大似然估计100
3.3.1 极大似然估计法的引例100
3.3.2 似然函数的由来102
3.3.3 极大似然估计的思想103
3.3.4 极大似然估计值的计算105
3.3.5 简单极大似然估计案例106
3.3.6 高斯分布参数的极大似然估计107
3.4 含有隐变量的参数估计问题110
3.4.1 参数估计问题的回顾110
3.4.2 新情况:场景中含有隐变量111
3.4.3 迭代法:解决含有隐变量情形的抛硬币问题112
3.4.4 代码实验115
3.5 概率渐增:EM算法的合理性118
3.5.1 EM算法的背景介绍119
3.5.2 先抛出EM算法的迭代公式119
3.5.3 EM算法为什么是有效的120
3.6 探索EM公式的底层逻辑与由来123
3.6.1 EM公式中的E步和M步124
3.6.2 剖析EM算法的由来124
3.7 探索高斯混合模型:EM 迭代实践127
3.7.1 高斯混合模型的引入128
3.7.2 从混合模型的角度看内部机理129
3.7.3 高斯混合模型的参数估计131
3.8 高斯混合模型的参数求解132
3.8.1 利用 EM 迭代模型参数的思路132
3.8.2 参数估计示例136
3.8.3 高斯混合模型的应用场景139
第4章 随机过程:聚焦动态特征145
4.1 由静向动:随机过程导引145
4.1.1 随机过程场景举例1:博彩146
4.1.2 随机过程场景举例2:股价的变化150
4.1.3 随机过程场景举例3:股价变化过程的展现152
4.1.4 两类重要的随机过程概述154
4.2 状态转移:初识马尔可夫链155
4.2.1 马尔可夫链三要素155
4.2.2 马尔可夫性:灵魂特征156
4.2.3 转移概率和状态转移矩阵157
4.2.4 马尔可夫链性质的总结158
4.2.5 一步到达与多步转移的含义159
4.2.6 多步转移与矩阵乘法160
4.2.7 路径概率问题163
4.3 变与不变:马尔可夫链的极限与稳态164
4.3.1 极限与初始状态无关的情况164
4.3.2 极限依赖于初始状态的情况165
4.3.3 吸收态与收敛分析167
4.3.4 可达与常返168
4.3.5 周期性问题171
4.3.6 马尔可夫链的稳态分析和判定172
4.3.7 稳态的求法174
4.4 隐马尔可夫模型:明暗两条线176
4.4.1 从马尔可夫链到隐马尔可夫模型176
4.4.2 典型实例1:盒子摸球实验177
4.4.3 典型实例2:小宝宝的日常生活180
4.4.4 隐马尔可夫模型的外在表征181
4.4.5 推动模型运行的内核三要素182
4.4.6 关键性质:齐次马尔可夫性和观测独立性183
4.5 概率估计:隐马尔可夫模型观测序列描述183
4.5.1 隐马尔可夫模型的研究内容183
4.5.2 模型研究问题的描述185
4.5.3 一个直观的思路186
4.5.4 更优的方法:前向概率算法187
4.5.5 概率估计实践190
4.5.6 代码实践192
4.6 状态解码:隐马尔可夫模型隐状态揭秘194
4.6.1 隐状态解码问题的描述194
4.6.2 最大路径概率与维特比算法195
4.6.3 应用维特比算法进行解码197
4.6.4 维特比算法的案例实践199
4.6.5 代码实践202
4.7 连续域上的无限维:高斯过程204
4.7.1 高斯过程的一个实际例子205
4.7.2 高斯过程的核心要素和严谨描述206
4.7.3 径向基函数的代码演示207
4.7.4 高斯过程回归原理详解208
4.7.5 高斯过程回归代码演示210
第5章 统计推断:贯穿近似策略215
5.1 统计推断的基本思想和分类215
5.1.1 统计推断的根源和场景215
5.1.2 后验分布:推断过程的关注重点216
5.1.3 精确推断和近似推断216
5.1.4 确定性近似:变分推断概述217
5.2 随机近似方法219
5.2.1 蒙特卡罗方法的理论支撑219
5.2.2 随机近似的核心:蒙特卡罗220
5.2.3 接受-拒绝采样的问题背景221
5.2.4 接受-拒绝采样的方法和步骤221
5.2.5 接受-拒绝采样的实践222
5.2.6 接受-拒绝采样方法背后的内涵挖掘225
5.2.7 重要性采样226
5.2.8 两种采样方法的问题及思考227
5.3 采样绝佳途径:借助马尔可夫链的稳态性质228
5.3.1 马尔可夫链回顾228
5.3.2 核心:马尔可夫链的平稳分布229
5.3.3 马尔可夫链进入稳态的转移过程231
5.3.4 稳态及转移过程演示231
5.3.5 马尔可夫链稳态的价值和意义235
5.3.6 基于马尔可夫链进行采样的原理分析236
5.3.7 采样过程实践与分析238
5.3.8 一个显而易见的问题和难点242
5.4 马尔可夫链-蒙特卡罗方法详解242
5.4.1 稳态判定:细致平稳条件243
5.4.2 Metropolis-Hastings采样方法的原理244
5.4.3 如何理解随机游走叠加接受概率245
5.4.4 如何实现随机游走叠加接受概率247
5.4.5 建议转移概率矩阵Q的设计247
5.4.6 Metropolis-Hastings方法的步骤和代码演示251
5.5 Gibbs采样方法简介253
5.5.1 Gibbs方法核心流程253
5.5.2 Gibbs采样的合理性255
5.5.3 Gibbs采样代码实验256