在21世纪,统计方法在范围和影响方面都有惊人的扩展。大数据、数据科学和机器学习已经成为新闻中常见的术语,因为统计方法被用于处理现代科学和商业的庞大数据集。我们是怎么走到这一步的?我们又将走到哪里?
本书将带你踏上数据分析变革的振奋之旅。从经典推断理论(贝叶斯理论、频率理论和Fisher理论)开始,各章节分别介绍一系列有影响力的主题,包括生存分析、广义线性模型、经验贝叶斯、刀切法与自助法、错误发现率、随机森林、神经网络、马尔可夫链蒙特卡罗方法、模型选择后的推断等。同时以独特的现代方法将方法和算法与统计推断相结合,对每个主题关键的方法论发展及其推断依据进行描述。此外,本书的后面章节对提升算法和深度学习等大规模预测算法进行研究,并阐述数据科学的未来方向。
本书两位作者均为斯坦福大学知名教授,不仅对统计推断理论和算法有着深刻的理解,并且有着丰富的统计算法教学经验。本书涵盖内容丰富,深入浅出,可作为低年级研究生的统计学教材。
统计推断是一门内容极其广泛的学科,实际上,它位于数学、经验科学和哲学三门学科的交叉点上。从贝叶斯准则的发表算起,这门学科可以追溯到1763年(贝叶斯准则代表了这一学科的哲学层面,该准则的早期倡导者认为它是上帝存在的论据)。从20世纪50年代到现在,我们书名所指的计算机时代是指这250年历史中的最近四分之一。在这个时代,统计应用的传统瓶颈计算,发展得愈发迅速。
本书是对过去60年统计如何演变的一个综述,但是对于这样一门内容广泛的学科,我们只不过是从一架小型飞机的高度进行俯瞰,而不是从喷气式飞机或卫星的高度来观察。各个章节分别介绍了一系列有影响力的论题,包括广义线性模型、生存分析、刀切法与自助法、错误发现率、经验贝叶斯、马尔可夫链蒙特卡罗方法、神经网络等。与此同时,我们将对每个论题关键的方法论发展及其推断依据进行描述。
不用多说,计算将是我们故事的核心话题,但是这并不意味着每一项进展都与计算机有关。正如一座桥已连通到一个新的大陆,但并不是所有人都渴望通过这座桥。诸如经验贝叶斯和James-Stein估计的话题已经在力学计算的约束下出现。其他话题,例如自助法和比例风险,才是计算机时代下新生的事物。在21世纪的统计学中,几乎所有的论题都依赖于计算机,但是要进入新千年的话题,我们这架小型飞机仍需飞一段时间。
统计推断在字典里的定义倾向于将其与整个学科等同起来。但在庞大的基于计算机处理算法所引导的大数据时代,这一定义已经变得不那么令人满意了。在此,我们将尝试把统计学的两个方面分开,即使这种划分方式并非总是一致的:针对特定问题领域的算法发展,例如使用随机森林进行预测,与其支持的推理论据,这两者截然不同。
从广义上讲,算法是统计学家所做的,而推断则说明他们为什么要这样做。数据科学作为统计事业的一个特别有活力的品牌,在新世纪中蓬勃发展,它强调算法思维而不是推断理由。本书后面的章节将对提升算法和深度学习等大规模预测算法进行研究,并阐述数据科学的观点(有关统计学和数据科学的联系,请参阅本书后记)。
生物推断、天文推断或地质推断这样的论题是不存在的。那为什么我们需要统计推断呢?答案很简单:自然科学有着判断想法准确性的天性。统计学比自然科学晚一步,它大多数时候是在解释自然科学家的观察结果。如果没有大自然作为无私的裁判,我们就需要一个用于指导和纠正的数学逻辑体系。统计推断就是这样一个从两个半世纪的数据分析经验中提炼出来的系统。
本书按照历史进程分为三个部分:第一部分回顾了经典推断、贝叶斯理论、频率理论和Fisher理论,它们都是在电子计算时代之前产生的,现代实践在不改变基本理论框架的情况下大大扩展了它们的应用范围(可以与古典和现代文学类比);第二部分关注从20世纪50年代到90年代早期的计算机时代的发展,作为一个过渡时期,这是在理论和实践中最容易看到快速计算对统计方法学进展有无影响的时期;第三部分,也就是21世纪的话题,把这个故事带到当下,我们所处的是一个算法蓬勃发展的时代(机器学习是令人不安的流行用语),解释算法的原理是现代统计推断的持续任务。
本书既不是目录,也不是百科全书,书中各个话题的选取是为计算方法和推断理论之间的相互作用提供恰当的例证。一些不包含在本书中的话题,譬如时间序列、一般估计方程、因果推断、图模型和实验设计,自然也有着自己的意义。无论如何,并不是本书中提出的主题才是唯一值得讨论的。
同样没有充分解释的还有渐近和决策理论,它们是这个领域的数学统计方面。我们的目的是将本书保持在一个适合硕士级别统计学者或一年级博士生的技术水平。不可避免地,部分内容将涉及更困难的领域,这些困难更多的来自统计思想的本质,而不是数学。读者如果发现我们的小飞机在某个话题上盘旋太久,应该毫不犹豫地继续向后阅读。在大多数情况下,章节彼此独立(尽管有一个连贯的整体主题)。这特别适用于那些因为对某个特定主题感兴趣而选择了本书的非统计学家,如仅对生存分析或提升算法感兴趣的读者。
如果要求一个有用的学科满足各种用户的需求,则会有失去核心的风险。尽管外部需求不断上升,统计学在大部分的内容上仍然保持着其哲学凝聚力。实际上,这个领域的核心在过去60年中已从基于数学和逻辑的传统焦点转向了一个更为计算化的焦点。本书将在各个话题上研究这一转变,除了在本书后记中讨论数据科学时略微给出一些讨论之外,这里不会尝试给出在未来会发生什么?这个有趣问题的答案。
致 谢
我们感谢Cindy Kirby在筹备本书时所做的娴熟工作,以及GalitShmueli对早期草案的有益评论。非常感谢剑桥大学出版社出色的文案编辑Steven Holt,感谢Clare Dennison在制作阶段始终指导我们,以及本书的编辑Diana Gillooly不懈地支持我们。
Bradley Efron
Trevor Hastie
2016年5月于斯坦福大学统计系
Bradley Efron是斯坦福大学 Max H. Stein 教授,统计学教授和生物医学数据科学教授。他曾在哈佛大学,加州大学伯克利分校和伦敦帝国理工学院担任过访问教师。Efron在统计推断理论方面进行了广泛的研究,并且是自举采样技术的发明者。他于 2005 年获得了国家科学奖章,并于
2014 年获得了皇家统计学会的金奖。
Trevor Hastie 是斯坦福大学的 John A. Overdeck教授,统计学教授和生物医学数据科学教授。他是统计学习要素的合著者,这是现代数据分析领域的重要著作。他还因其在广义加性模型和主曲线方面的工作以及他对 R 计算环境的贡献而闻名。Hastie
在 2014 年获得了 Emmanuel 和 Carol Parzen的统计创新奖。
赞誉
译者序
前言
致谢
第一部分 经典统计推断
第1章 算法与推断2
1.1 一个回归的例子3
1.2 假设检验5
1.3 注释7
注释7
第2章 频率学派推断8
2.1 实践中的频率学派9
2.2 频率学意义下的最优化12
2.3 注释与细节13
注释13
第3章 贝叶斯推断14
3.1 两个例子15
3.2 无信息先验分布18
3.3 频率学派推断的缺陷19
3.4 贝叶斯学派/频率学派的对比列表21
3.5 注释与细节23
注释23
第4章 Fisher推断和最大似然估计24
4.1 似然和最大似然24
4.2 Fisher信息和MLE26
4.3 条件推断28
4.4 排列和随机化31
4.5 注释与细节32
注释32
第5章 参数模型和指数族34
5.1 单变量族34
5.2 多元正态分布36
5.3 多参数分布族的Fisher信息量边界38
5.4 多项分布39
5.5 指数型分布族41
5.6 注释与细节44
注释44
第二部分 计算机时代早期方法
第6章 经验贝叶斯48
6.1 Robbins公式48
6.2 物种遗漏问题50
6.3 一个医学上的例子54
6.4 间接证据156
6.5 注释与细节57
注释57
第7章 James-Stein估计和岭回归59
7.1 James-Stein估计59
7.2 棒球运动员61
7.3 岭回归63
7.4 间接证据266
7.5 注释和细节68
注释68
第8章 广义线性模型与回归树70
8.1 逻辑回归70
8.2 广义线性模型75
8.3 泊松回归78
8.4 回归树80
8.5 注释与细节82
注释83
第9章 生存分析和EM算法85
9.1 生命表和风险率85
9.2 删失数据和Kaplan-Meier估计87
9.3 对数秩检验91
9.4 比例风险模型93
9.5 缺失数据和EM算法95
9.6 注释与细节98
注释98
第10章 刀切法与自助法101
10.1 标准差的刀切法估计101
10.2 非参数的自助法103
10.3 重抽样方案106
10.4 参数自助法110
10.5 影响函数与鲁棒估计112
10.6 注释与细节115
注释115
第11章 自助法置信区间117
11.1 Neyman的单参数问题的构建117
11.2 百分位方法120
11.3 偏差校正置信区间122
11.4 二阶精度124
11.5 自助t区间126
11.6 目标贝叶斯区间和置信分布127
11.7 注释与细节131
注释131
第12章 交叉验证与预测误差的Cp估计134
12.1 预测规则134
12.2 交叉验证137
12.3 协方差惩罚140
12.4 训练、验证与短期预测因子146
12.5 注释与细节148
注释148
第13章 客观贝叶斯推断和马尔可夫链蒙特卡罗方法150
13.1 客观先验分布150
13.2 共轭先验分布152
13.3 模型选择与贝叶斯信息准则156
13.4 Gibbs抽样和MCMC161
13.5 示例:模拟人口混合165
13.6 注释与细节167
注释167
第14章 战后时代的统计推断与方法论169
注释171
第三部分 21世纪的话题
第15章 大规模假设检验和错误发现率174
15.1 大规模假设检验174
15.2 错误发现率176
15.3 经验贝叶斯大规模假设检验178
15.4 局部错误发现率181
15.5 原假设分布的选择183
15.6 关联性186
15.7 注释与细节188
注释188
第16章 稀疏建模和套索191
16.1 前向逐步回归191
16.2 套索194
16.3 拟合套索模型197
16.4 最小角回归198
16.5 拟合广义的套索模型200
16.6 套索的选择后推断202
16.7 联系和扩展203
16.8 注释与细节205
注释205
第17章 随机森林和提升207
17.1 随机森林207
17.2 平方误差损失的提升212
17.3 梯度提升216
17.4 Adaboost:原始的提升算法218
17.5 联系和扩展220
17.6 注释与细节221
注释222
第18章 神经网络与深度学习224
18.1 神经网络与手写数字问题225
18.2 拟合一个网络226
18.3 自动编码器230
18.4 深度学习231
18.5 学习一个深层网络234
18.6 注释与细节235
注释236
第19章 支持向量机和核方法238
19.1 最优超平面238
19.2 软间隔分类器240
19.3 作为损失加惩罚的支持向量机准则241
19.4 计算以及核技巧242
19.5 利用核的函数拟合244
19.6 实例:用于蛋白质分类的字符串核函数244
19.7 支持向量机:结束语245
19.8 核平滑和局部回归246
19.9 注释与细节247
注释248
第20章 模型选择后的推断250
20.1 同时置信区间251
20.2 模型选择后的准确率255
20.3 选择的偏差258
20.4 贝叶斯频率学组合估计260
20.5 注释与细节263
注释264
第21章 经验贝叶斯估计策略266
21.1 贝叶斯反卷积266
21.2 g-建模和估计267
21.3 似然、正则化和准确性269
21.4 两个例子272
21.5 广义线性混合模型276
21.6 反卷积和f-建模278
21.7 注释与细节280
注释280
后记282
参考文献286