机器学习是关于从数据中建立预测或描述模型,以提升机器解决问题能力的学科。在建立模型后,需要采用适当的优化算法来求解模型的参数,因此优化算法是机器学习的重要组成部分。但是传统的优化算法并不完全适用于机器学习,因为通常来说机器学习模型的参数维度很高或涉及的样本数巨大,这使得一阶优化算法在机器学习中占据主流地位。
本书概述了机器学习中加速一阶优化算法的新进展。书中全面介绍了各种情形下的加速一阶优化算法,包括确定性和随机性的算法、同步和异步的算法,以求解带约束的问题和无约束的问题、凸问题和非凸问题,对算法思想进行了深入的解读,并对其收敛速度提供了详细的证明。
本书面向机器学习和优化领域的研究人员,包括人工智能、信号处理及应用数学特别是计算数学专业高年级本科生、研究生,以及从事人工智能、信号处理领域产品研发的工程师。
适读人群:
机器学习和优化领域的研究人员,包括人工智能、信号处理及应用数学特别是计算数学专业高年级本科生、研究生,以及从事人工智能、信号处理领域产品研发的工程师
1、院士推荐。本书由Michael I. Jordan院士、徐宗本院士、罗智泉院士联袂推荐。
2、作者知名。本书由机器学习和计算机视觉领域的国际知名专家,北京大学信息科学技术学院机器感知与智能重点实验室教授林宙辰领衔撰写。
3、内容前沿。概述了机器学习中加速一阶优化算法的新进展,全面介绍了各种情形下的加速一阶优化算法。
4、主流热门。以当前机器学习会议的热门话题加速算法为主线,涵盖机器学习中常用的凸优化、非凸优化,以及随机优化和分布式优化。
中文版前言
本书的英文版交稿后,对于是否要出版中文版,我的确纠结了一段时间.毕竟本书并非优化算法的入门书,能够关注它的人士一般都有较好的数学和英文基础,在此前提下,出版中文版似乎没什么必要,而且会占用我们的科研时间,让我们继续在已知的范围内打圈圈,妨碍我们去探寻未知.然而,庚子年突发新冠疫情,习近平总书记把论文写在祖国大地上的号召越发深入人心.另外,不少好友在得知英文版将要出版的消息后,向我询问有没有中文版,也让我意识到出版中文版的必要性.因此,在NeurIPS2020论文提交截止后,我和李欢、方聪再次牺牲所有的业余时间,马上开始了翻译工作.所幸数学公式占了绝大部分,文字翻译和全书校对得以在较短的时间内完成.但是,中文版并不是英文版的逐字简单翻译,我们添加了少量内容(如增加了第2.1、2.2节和一致凸函数的定义,扩充了第2.3节),还更正了英文版中的一些细节错误.完成了中文版,我才终于觉得这项工作功德圆满,故作小诗一首:
一朝意气兴, 两载苦劳形.
若可追周髀, 千觥醉未名!
林宙辰
于北京 .北京大学
2020 年 10 月
本书中文版主体译自:
Accelerated Optimization for Machine Learning: First-Order Algorithms by Zhouchen Lin, Huan Li and Cong Fang.
Copyright . Springer Nature Singapore Pte Ltd. 2020. All Rights Reserved.
建议引用本书英文版.
英文版前言
在为北京大学开设的优化课程准备高级材料时,我发现加速算法是对工程专业学生有吸引力和实用的专题.实际上,这也是当前机器学习会议的热门话题.尽管有些书介绍了一些加速算法,例如[Beck,2017;Bubeck,2015;Nesterov,2018],但它们不完整、不系统且不是的.因此,在2018年年初,我决定写一本有关加速算法的专著.我的目标是写一本有条理的书,其中包含足够的入门材料和详尽的证明,以便读者无须查阅分散四处的文献,不被不一致的符号所困扰,并且不被非关键内容包围而不知中心思想为何.幸运的是,我的两个博士生李欢和方聪很乐意加入这项工作.
事实证明,这项任务非常艰巨,因为我们必须在繁忙的工作日程中抽空进行写作.终,在李欢和方聪博士毕业之前,我们终于写完了一份粗糙但完整的初稿.接下来,我们又花了四个月的时间来使本书读起来流畅并订正了各种不一致和错误.后,我们极为荣幸地收到MichaelI.Jordan教授、徐宗本教授和罗智泉教授写的序.尽管这本书占用了我们近两年的所有闲暇时间,但当全书终于完成的时候,我们仍然觉得我们的努力是完全值得的.
希望这本书能成为机器学习和优化领域研究人员的有价值的参考书,这将是对我们工作的认可.
林宙辰
于北京 .北京大学
2019 年 11 月
参 考 文 献
Beck Amir. (2017). First-Order Methods in Optimization[M]. volume 25. SIAM, Philadelphia.
Bubeck Sébastien. (2015). Convex optimization: Algorithms and complexity[J]. Found. Trends Math. Learn., 8(3-4): 231-357.
Nesterov Yurii. (2018). Lectures on Convex Optimization[M]. 2nd ed. Springer.
林宙辰
机器学习和计算机视觉领域的国际知名专家,目前是北京大学信息科学技术学院机器感知与智能教育部重点实验室教授。他曾多次担任多个业内会议的领域主席,包括CVPR、ICCV、ICML、NIPS/NeurIPS、AAAI、 IJCAI和ICLR。他曾任IEEE Transactions on Pattern Analysis and Machine Intelligence编委,现任International Journal of Computer Vision和Optimization Methods and Software的编委。他是IAPR和IEEE的会士。
李 欢
于2019 年在北京大学获得博士学位,专业为机器学习。目前是南开大学人工智能学院助理研究员,研究兴趣包括优化和机器学习。
方 聪
于2019 年在北京大学获得博士学位,专业为机器学习。目前是北京大学助理教授,研究兴趣包括机器学习和优化。
推荐序一
推荐序二
推荐序三
中文版前言
英文版前言
致谢
作者介绍
符号表
第 1 章 绪论 1
1.1 机器学习中的优化问题举例 1
1.1.1 正则化的经验损失模型 1
1.1.2 矩阵填充及低秩学习模型 3
1.2 一阶优化算法 3
1.3 加速算法中的代表性工作综述 4
1.4 关于本书 7
参考文献 7
第 2 章 无约束凸优化中的加速算法 14
2.1 梯度下降法 14
2.2 重球法 15
2.3 加速梯度法 16
2.4 求解复合凸优化问题的加速梯度法 23
2.4.1 种 Nesterov 加速邻近梯度法 23
2.4.2 第二种 Nesterov 加速邻近梯度法 27
2.4.3 第三种 Nesterov 加速邻近梯度法 31
2.5 非精确加速邻近梯度法 33
2.5.1 非精确加速梯度法 42
2.5.2 非精确加速邻近点法 42
2.6 重启策略 43
2.7 平滑策略 45
2.8 高阶加速方法 50
2.9 从变分的角度解释加速现象 55
参考文献 60
第 3 章 带约束凸优化中的加速算法 63
3.1 线性等式约束问题的一些有用结论 63
3.2 加速罚函数法 66
3.2.1 一般凸目标函数 71
3.2.2 强凸目标函数 71
3.3 加速拉格朗日乘子法 72
3.3.1 原始问题的解 74
3.3.2 加速增广拉格朗日乘子法 76
3.4 交替方向乘子法及非遍历意义下的加速算法 77
3.4.1 情形 1:一般凸和非光滑目标函数 82
3.4.2 情形 2:强凸非光滑目标函数 83
3.4.3 情形 3:一般凸和光滑目标函数 85
3.4.4 情形 4:强凸和光滑目标函数 87
3.4.5 非遍历意义收敛速度 88
3.5 原始对偶算法 98
3.5.1 情形 1:两个函数均非强凸 100
3.5.2 情形 2:只有一个函数强凸 101
3.5.3 情形 3:两个函数均强凸 103
3.6 Frank-Wolfe 算法 104
参考文献 108
第 4 章 非凸优化中的加速梯度算法 112
4.1 带冲量的邻近梯度法 112
4.1.1 收敛性理论 113
4.1.2 单调加速邻近梯度法 120
4.2 快速收敛到临界点 120
4.2.1 能够检测强凸性质的 AGD 121
4.2.2 负曲率下降算法 123
4.2.3 非凸加速算法 125
4.3 快速逃离鞍点 128
4.3.1 几乎凸的情形 128
4.3.2 完全非凸情形 130
4.3.3 非凸加速梯度下降法 131
参考文献 136
第 5 章 加速随机算法 138
5.1 各自凸情况 139
5.1.1 加速随机坐标下降算法 140
5.1.2 方差缩减技巧基础算法 147
5.1.3 加速随机方差缩减方法 152
5.1.4 黑盒加速算法 158
5.2 各自非凸情况 160
5.3 非凸情况 166
5.3.1 随机路径积分差分估计子 167
5.3.2 冲量加速 173
5.4 带约束问题 174
5.5 无穷情况 197
参考文献 200
第 6 章 加速并行算法 202
6.1 加速异步算法 202
6.1.1 异步加速梯度下降算法 203
6.1.2 异步加速随机坐标下降算法 215
6.2 加速分布式算法 227
6.2.1 中心化模式 227
6.2.2 去中心化模式 232
参考文献 243
第 7 章 总结 246
参考文献 247
附录 A 数学基础 249
A.1 代数与概率 249
A.2 凸分析 250
A.3 非凸分析 257
参考文献 259
缩略语表 260
索引 262