本书共13章,分别介绍了随机变量的抽样方法,随机向量的抽样方法,随机过程的抽样方法,Gibbs抽样和马尔可夫链,Metropolis-Hastings算法、HMC算法及SMC算法,EM算法和MM算法,梯度下降法,Newton-Raphson算法,坐标下降法,Boosting算法,凸优化与支持向量机,ADMM算法,深度学习等常用优化方法以及近些年在机器学习和深度学习领域使用的热门算法.对各种算法,作者除了给出计算步骤和统计模型的应用实例外,还对算法涉及的基本概念和重要收敛性定理进行了介绍和证明.本书专业性较强,可作为高年级本科生和研究生的教材,也可作为相关科研人员的参考书.
前言
在大数据时代,面对规模庞大的数据和纷繁复杂的数据类型,用于分析这些数据的统计模型也越来越复杂,模型估计的难度日益加大,因此统计计算在统计研究和应用领域的重要性不断提升.正如北京大学张志华教授所说:“计算在统计中已经变得越来越重要,传统的多元统计分析以矩阵为计算工具,而现代高维统计则以优化算法为计算工具.”
作者在中南大学数学与统计学院给高年级本科生和低年级研究生开设“统计计算”这门课时,发现学生们已经具备了一定的编程基础和统计软件的使用经验,他们希望在这门课中更深入地了解统计计算方法的基本原理,学习更高级、更前沿的算法及相关收敛性理论,这些更有助于他们做出原创性的科研工作或解决实际中遇到的统计计算问题,也促使作者产生了撰写本书的想法.
本书的内容分成两部分:蒙特卡罗方法和统计计算的常用优化算法.前者是贝叶斯模型估计的主要方法,后者是现代高维统计的计算工具.本书的前三章分别介绍了一元随机变量的抽样、多元随机向量的抽样和随机过程的抽样,它们构成了蒙特卡罗方法的基石;第4章和第5章介绍了Gibbs抽样、马尔可夫链蒙特卡罗(MCMC)方法、哈密顿蒙特卡罗方法(HMC)和序贯蒙特卡罗方法(SMC);第6~12章每一章介绍一种优化方法及其在统计或机器学习中的应用,包括估计高斯混合模型的EM算法、估计Logistic回归模型的Newton算法、稀疏学习常用的坐标下降法、AdaBoost算法、SVM与凸优化理论等;第13章以对深度学习的入门介绍作为全书的结尾.
与国内外已出版的相关教材相比,本书在统计计算传统核心内容的基础上增加了一些新的较流行的计算方法.在前半部分蒙特卡罗抽样方法中加入了Dirichlet分布抽样、随机矩阵的抽样方法、随机图的抽样方法、Poisson点过程抽样、Dirichlet过程抽样等内容.在有关MCMC方法的介绍中,不仅补充了马尔可夫链的一些基本概念和收敛性理论,还增加了对较前沿的HMC方法的介绍并配以详细的应用实例说明.在后半部分对优化算法的介绍中,本书增加了比EM算法应用范围更广的MM算法、稀疏学习中流行的坐标下降法及ADMM算法,此外还加入了对机器学习和深度学习前沿算法的介绍.
本书在介绍每种方法时,不仅给出了基本的计算步骤,还对相关收敛性理论进行了介绍,给出了必要的推导证明,使读者能深入地领会方法的本质以及更准确地使用这些方法.本书还为每种方法配备了一个或多个具体的统计模型应用实例,很多应用实例来自近几年较前沿的科研文章,有些实例配有详细的R代码,使读者掌握使用这些方法解决实际统计计算问题的全过程.本书为一些章节配备了习题,这些习题大多需要读者进行编程计算,很多题目可以在书中实例的R代码基础上进行修改和扩展完成.此外,本书在对知识的介绍中配备了大量图片进行说明,有些还附有视频链接,帮助读者理解.
本书是作者对自己在博士期间所读的多本教材、课堂笔记、阅读的大量科研论文的一个综合整理,从中选取了对当前数据分析和科研最有帮助的统计计算方法.本书的写作深受很多统计学专家学者所著的教材和讲义的影响,包括斯坦福大学Art Owen教授所著的有关蒙特卡罗方法的教材、杜克大学David Dunson教授的贝叶斯统计课程讲义、Peter Hoff教授的多元统计分析课程讲义、Mike West教授的概率统计模型课程讲义和Cynthia Rudin教授的机器学习课程讲义.作者也受益于在杜克大学读博士期间与这些教授在学术科研上的交流和讨论.本书初稿完成后,在教学过程中收到了很多学生的宝贵意见,对本书质量的提高有很大帮助,在此向单顺衡、张转、申贞远、邓牧野、曹楷、邵慧、陈宇昕、王安澜、陈建国、徐素、杜露露、柯宝芳、万昭曼、于颖、甄梦楠、鄂继跃表示衷心感谢.在本书出版过程中,机械工业出版社的责任编辑汤嘉给予了很多帮助,在此特向他致谢.
由于作者水平所限,书中难免有错误和不当之处,欢迎读者批评指正,来函请发至wanglu_stat@csu.edu.cn.
前言
第1章随机变量的抽样方法1
11均匀分布随机变量的抽样方法1
12非均匀分布随机变量的抽样方法5
参考文献30
第2章随机向量的抽样方法31
21一元抽样方法的推广31
22多元正态分布34
23多元t分布35
24多项分布36
25Dirichlet分布37
26Copula-marginal方法39
27球面上的随机点46
28随机矩阵49
29随机图62
参考文献70
第3章随机过程的抽样方法71
31随机过程的基本概念71
32随机游走72
33高斯过程74
34泊松点过程81
35Dirichlet过程86
参考文献92
第4章Gibbs抽样和马尔可夫链93
41贝叶斯正态模型93
42Gibbs抽样99
43马尔可夫链100
参考文献102
第5章Metropolis-Hastings算法、
HMC算法与SMC算法103
51贝叶斯泊松回归模型103
52Metropolis算法104
53贝叶斯泊松回归模型的
Metropolis算法106
54Metropolis-Hastings算法109
55哈密顿蒙特卡罗(HMC)方法111
56序贯蒙特卡罗(SMC)方法125
参考文献129
第6章EM算法和MM算法130
61高斯混合模型(GMM)130
62Jensen不等式131
63EM算法131
64使用EM算法估计GMM134
65MM算法135
参考文献139
第7章梯度下降法140
71梯度下降法(GD)140
72随机梯度下降法(SGD)146
参考文献147
第8章Newton-Raphson算法148
81Newton-Raphson算法步骤148
82收敛性分析149
83Logistic回归的最大似然估计151
参考文献154
第9章坐标下降法155
91坐标下降法155
92坐标下降法的应用:LASSO159
参考文献166
第10章Boosting算法167
101AdaBoost算法167
102AdaBoost 统计解释170
103AdaBoost概率解释175
参考文献176
第11章凸优化与支持向量机177
111Margin177
112凸优化理论180
113SVM:最大化最小margin185
114线性不可分情形187
115核函数190
参考文献194
第12章ADMM算法195
121对偶上升法195
122加强拉格朗日法和乘子法196
123ADMM算法197
参考文献203
第13章深度学习204
131神经网络204
132卷积神经网络212
参考文献216