统计学习要素:机器学习中的数据挖掘、推断与预测(第2版)
定 价:159 元
- 作者:[美] 特雷弗·哈斯蒂,[美] 罗伯特·提布施拉 著
- 出版时间:2020/12/1
- ISBN:9787302557395
- 出 版 社:清华大学出版社
- 中图法分类:TP181
- 页码:576
- 纸张:胶版纸
- 版次:1
- 开本:16
《统计学习要素:机器学习中的数据挖掘、推断与预测(第2版)》在一个通用的概念框架中描述通用于数据挖掘、机器学习和生物信息学等领域的重要思想和概念。这些统计学范畴下的概念是人工智能与机器学习的基础。全书共18 章,主题包括监督学习、回归的线性方法、分类的线性方法、基展开和正则化、核光滑方法、模型评估和选择、模型推断和平均、加性模型、树和相关方法、Boosting 和加性树、神经网络、支持向量机和柔性判断、原型方法和最近邻、非监督学习、随机森林、集成学习、无向图模型和高维问题等。
《统计学习要素:机器学习中的数据挖掘、推断与预测(第2版)》主题全面,是一本经典的统计学习教材,适合本科高年级学生和研究生使用和参考。
第2版前言
“我们信靠上帝,其他的只信数据!”
— 威廉·爱德华·戴明(William Edwards Deming, 1900—1993) ①②
本书第1 版受到了广大读者的肯定和欢迎,让我们备受鼓舞。同时,自此书出版以来,统计学习领域的研究步伐也日新月异。这些促使我们将本书更新至第2 版。
我们增加了4 章新的内容,并更新了已有章节的部分内容。考虑到许多读者对第1 版的布局比较熟悉,我们尝试了尽量少改动本书的结构。下表总结一些主要的变化。
章 新增内容
1. 概述
2. 监督学习综述
3. 回归的线性方法 最小角度回归(Least Angle Regression,LAR)
算法和Lasso 的推广
4. 分类的线性方法 用于逻辑斯特回归(logistic)的Lasso 路径
5. 基展开与正则化 增加了对重建核希尔伯特空间(RKHS)的描述
6. 核平滑方法
7. 模型的评估和选择 交叉验证的优势和陷阱
8. 模型的推断和平均
9. 加性模型、树和相关方法
10. Boosting 和加性树 一个生态学的新示例, 一些内容被转到第16章
11. 神经网络 贝叶斯神经网和NIPS 2003 挑战
12. 支持向量机和柔性判别分析 支持向量机(SVM)分类器的路径算法
13. 原型方法与最近邻
14. 非监督学习 谱聚类,核主成分分析(PCA),稀疏PCA,非
负矩阵分解中的典型分析,非线性维数约简,谷
歌的页面排名(Page Rank)算法,一个实现独
立分量分析(ICA)的直接方法
15. 随机森林 新
16. 集成学习 新
17. 无向图模型 新
18. 高维问题:?? ? ?? 新
① 在网络上,这一引语曾经广泛认为是戴明(Deming)和海登(Robert W. Hayden)提出的。
然而,海登教授告诉我们,他从未说过此话。比较搞笑的是,我们也没有找到“数据”来证实戴
明实际上说过这句话。
② 中文版编注:在NASA 有一间会议室的墙上,有这样一句原话:“In God we trust, all others
bring data.”
其他说明如下。
? 第1 版对色盲读者不是太友好,特别是我们偏好采用会引起麻烦的红/绿对比。在新版中,我们对颜色配置进行了较大的改进,用橙色/蓝色对比来代替原来的红/绿对比。
? 我们将第6章的标题从“核方法”改成“核平滑方法”,以免与第12章中的支持向量机部分以及第5章和第14章、在机器学习框架下广泛讨论的核方法混淆。
? 在第1 版中,因为没有明确区分条件误差率(以训练集为条件)和无条件误差率,所以第7 章关于误差率估计的讨论有些凑合。在新版中,我们已经修正这一问题。
? 第15章和第16章是从第10章自然发展而来的,读者最好能按这个顺序来阅读。
? 在第17章,我们没有试图涵盖图模型的全部内容,而是只讨论了无向图模型以及估计它们的一些新方法。具体来说,由于篇幅限制,我们在本书中忽略了与有向图模型相关的内容。
? 第18章探索了高维特征空间学习中的?? ? ?? 问题。这一问题在很多领域(如基因组、蛋白质组和文本分类)中都广泛存在。
我们感谢在第1 版中发现(大量)错误的众多读者。在新版本里,我们为那些错误表示歉意,并尽我们最大的努力来避免错误再次发生。我们感谢马克(Mark Segal)、巴拉(Bala Rajaratnam)和拉瑞(Larry Wasserman)对新增各章的内容提出建议,也感谢斯坦福的许多研究生和博士后提出的建议,尤其是默罕默德(Mohammed AlQuraishi)、约翰(John Boik)、霍尔格(Holger Hoefling)、阿瑞(Arian Maleki)、多拉尔(Donal McMahon)、撒哈荣(Saharon Rosset)、巴巴克(Babak Shababa)、丹尼尔拉(DanielaWitten)、朱奇(Ji Zhu)和邹辉(Hui Zou)。我们感谢约翰(John Kimmel),因为他耐心指导我们完成了新的版本。罗伯特(Robert Tibshirani)将此书献给安娜(Anna McPhee)。
特雷弗·哈斯蒂(Trevor Hastie)
罗伯特·提布施拉尼(Robert Tibshirani)
杰罗姆·弗雷曼(Jerome Friedman)
加州,斯坦福大学
2008 年8 月
斯坦福大学统计学教授。三人是该领域的杰出研究人员。哈斯蒂在新泽西州的AT&T贝尔实验室以技术人员身份工作9年之后,于1994年8月加入斯坦福大学任教。哈斯蒂用S-PLUS写了许多统计建模软件,并发明了主要曲线和曲面。他和提布施拉尼共同开发了广义加性模型并写了这一主题的热门书。提布施拉尼提出了Lasso,参与创作了《Bootstrap概论》,这本书取得了相当大的成功。弗雷曼是许多数据挖掘工具的共同发明人,包括CART、MARS、投影追踪和梯度Boosting。
译者简介
张军平
复旦大学计算机科学技术学院教授,博导,主要研究方向是人工智能、机器学习、生物认证和智能交通。曾经主持多个国j级项目。他是人工智能著名期刊 IEEE Intelligent Systems 编委,担任《软件学报》和《自动化学报》等国内权威期刊责任编辑。他是中国自动化学会混合智能专业委员会副主任。他在人工智能及相关专业领域发表了100余篇论文,包括 IEEE TPAMI,TNNLS,ToC,TAC和TITS等期刊以及ICML, AAAI和 ECCV等国际会议上。他的人工智能科普畅销书《爱犯错的智能体》荣获了2019年中国自动化学会科普奖。2020年中国科普作家协会第六届优秀作品奖(中国科普创作领域z高奖)金奖以及2020年第十届吴文俊人工智能科技进步奖(科普项目)。