本书从初学者角度出发,以"讲课”的形式,归纳分析各类迁移学习方法,使读者能快速理解迁移学习的本质问题、抓住重点、举一反三、迅速入门。它的一大亮点是对"两头"的把握:一是源头,抓问题和场景,做到"师出有名”,讲清楚针对什么问题、用在哪里;二是笔头,抓代码与实践,做到"落地结果”,在实战中巩固和深化对技术的理解。本书同时配套丰富的在线学习资源。
王晋东微软亚洲研究院研究员,博士毕业于中国科学院计算技术研究所,主要从事迁移学习、机器学习和深度学习方面的研究。研究成果发表在IEEE TKDE、IEEE TNNLS、NeurIPS、CVPR、IJCAI、IMWUT等顶级期刊和会议;获得国家奖学金、中国科学院优秀博士论文奖、IJCAI联邦学习研讨会最佳应用论文奖等。担任国际会议IJCAI 2019的宣传主席,担任TPAMI、TKDE、ICML、NeurIPS、ICLR等的审稿人或程序委员会委员。热心知识分享,领导维护着GitHub上广受欢迎的迁移学习开源库,获得超过1万星标;在知乎的博客文章浏览次数逾1000万次,帮助众多学术界和工业界人士快速入门迁移学习。陈益强中国科学院计算技术研究所所务委员、研究员、CCF Fellow,主要研究人机交互与普适计算,联邦学习与迁移学习等。任北京市移动计算与新型终端重点实验室主任、中科院计算所泛在计算系统研究中心主任;曾入选国家“万人计划”科技创新领军人才、科技部中青年科技创新领军人才、北京市科技新星等;国务院特殊津贴专家,东京大学、南洋理工大学兼职教授,IEEE计算智能等6个刊物的编委,IEEE可穿戴与智能交互技术委员会创始委员等。获 IJCAI-FL等人工智能和普适计算领域最佳论文奖 6 项;相关成果获国家科技进步二等奖及中国计算机学会技术发明一等奖等。
第I 部分迁移学习基础
1 绪论3
1.1 迁移学习3
1.2 相关研究领域7
1.3 迁移学习的必要性8
1.3.1 大数据与少标注之间的矛盾9
1.3.2 大数据与弱计算能力的矛盾9
1.3.3 有限数据与模型泛化能力的矛盾.10
1.3.4 普适化模型与个性化需求的矛盾.11
1.3.5 特定应用的需求 11
1.4 迁移学习的研究领域12
1.4.1 按特征空间分类 13
1.4.2 按目标域有无标签分类 13
1.4.3 按学习方法分类 13
1.4.4 按离线与在线形式分类 14
1.5 学术界和工业界中的迁移学习15
1.6 迁移学习的应用18
1.6.1 计算机视 觉19
1.6.2 自然语言处理 21
1.6.3 语音识别与合成 23
1.6.4 普适计算与人机交互25
1.6.5 医疗健康 28
1.6.6 其他应用领域30
参考文献
2 从机器学习到迁移学习48
2.1 机器学习基础48
2.1.1 机器学习概念48
2.1.2 结构风险最小化 49
2.1.3 数据的概率分布 50
2.2 迁移学习定义52
2.3 迁移学习基本问题 55
2.3.1 何时迁移 55
2.3.2 何处迁移 56
2.3.3 如何迁移 58
2.4 失败的迁移:负迁移 58
2.5 一个完整的迁移学习过程 60
参考文献61
3 迁移学习方法总览63
3.1 分布差异的度量 63
3.2 分布差异的统一表征66
3.2.1 分布自适应因子的计算 67
3.3 迁移学习方法统一表征68
3.3.1 样本权重迁移法 70
3.3.2 特征变换迁移法 70
3.3.3 模型预训练迁移法 71
3.4 上手实践72
3.4.1 数据准备 .73
3.4.2 基准模型构建:KNN 75
参考文献76
4 样本权重迁移法78
4.1 问题定义78
4.2 基于样本选择的方法 80
4.2.1 基于非强化学习的样本选择法 81
4.2.2 基于强化学习的样本选择法82
4.3 基于权重自适应的方法 83
4.4 上手实践 85
4.5 小结 88
参考文献88
5 统计特征变换迁移法93
5.1 问题定义93
5.2 最大均值差异法94
5.2.1 基本概念 94
5.2.2 基于最大均值差异的迁移学习96
5.2.3 求解与计算 99
5.2.4 应用与扩展 101
5.3 度量学习法102
5.3.1 度量学习 102
5.3.2 基于度量学习的迁移学习 104
5.4 上手实践 105
5.5 小结108
参考文献108
6 几何特征变换迁移法 111
6.1 子空间变换法111
6.1.1 子空间对齐法112
6.1.2 协方差对齐法113
6.2 流形空间变换法 114
6.2.1 流形学习 114
6.2.2 基于流形学习的迁移学习方法 115
6.3 最优传输法 118
6.3.1 最优传输 118
6.3.2 基于最优传输法的迁移学习方法 119
6.4 上手实践 121
6.5 小结 122
参考文献 123
7 迁移学习理论、评测与模型选择125
7.1 迁移学习理论 125
7.1.1 基于H-divergence 的理论分析 126
7.1.2 基于HΔH-distance 的理论分析.128
7.1.3 基于差异距离的理论分析 129
7.1.4 结合标签函数差异的理论分析 130
7.2 迁移学习评测 131
7.3 迁移学习模型选择132
7.3.1 基于密度估计的模型选择 133
7.3.2 迁移交叉验证133
7.4 小结134
参考文献 135
第II 部分现代迁移学习
8 预训练– 微调 139
8.1 深度神经网络的可迁移性 140
8.2 预训练??微调 143
8.2.1 预训练– 微调的有效性 144
8.3 迁移学习中的正则 145
8.4 预训练模型用于特征提取148
8.5 学习如何微调 149
8.6 上手实践 151
8.7 小结 155
参考文献155
9 深度迁移学习 158
9.1 总体思路159
9.2 深度迁移学习的网络结构160
9.2.1 单流结构 161
9.2.2 双流结构 161
9.3 数据分布自适应方法163
9.4 结构自适应的深度迁移学习方法165
9.4.1 基于批归一化的迁移学习 165
9.4.2 基于多表示学习的迁移网络结构.166
9.4.3 基于解耦的深度迁移方法 168
9.5 知识蒸馏 169
9.6 上手实践170
9.6.1 网络结构 171
9.6.2 迁移损失 174
9.6.3 训练和测试 179
9.7 小结183
参考文献184
10 对抗迁移学习 187
10.1 生成对抗网络与迁移学习187
10.2 数据分布自适应的对抗迁移方法189
10.3 基于最大分类器差异的对抗迁移方法192
10.4 基于数据生成的对抗迁移方法 194
10.5 上手实践195
10.5.1 领域判别器 195
10.5.2 分布差异计算 .196
10.5.3 梯度反转层 197
10.6 小结198
参考文献198
11 迁移学习的泛化200
11.1 领域泛化200
11.2 基于数据操作的领域泛化方法203
11.2.1 数据增强和生成方法 203
11.2.2 基于Mixup 的数据生成方法 .205
11.3 领域不变特征学习206
11.3.1 核方法:领域不变成分分析 .206
11.3.2 深度领域泛化方法.208
11.3.3 特征解耦 210
11.4 用于领域泛化的不同学习策略212
11.4.1 基于集成学习的方法 212
11.4.2 基于元学习的方法213
11.4.3 用于领域泛化的其他学习范式 215
11.5 领域泛化理论215
11.5.1 平均风险预估误差上界 215
11.5.2 泛化风险上界217
11.6 上手实践17
11.6.1 数据加载 218
11.6.2 训练和测试 220
11.6.3 示例方法:ERM 和CORAL.222
11.7 小结225
参考文献225
12 安全和鲁棒的迁移学习232
12.1 安全迁移学习232
12.1.1 迁移学习模型可以被攻击吗233
12.1.2 抵制攻击的方法233
12.1.3 ReMoS:一种新的安全迁移学习方法 235
12.2 联邦学习和迁移学习 238
12.2.1 联邦学习 238
12.2.2 面向非独立同分布数据的个性化联邦学习 241
12.2.3 模型自适应的个性化迁移学习 242
12.2.4 基于相似度的个性化联邦学习 243
12.3 无需源数据的迁移学习244
12.3.1 信息最大化方法 246
12.3.2 特征匹配方法 247
12.4 基于因果关系的迁移学习248
12.4.1 什么是因果关系 248
12.4.2 因果关系与迁移学习 250
12.5 小结254
参考文献254
13 复杂环境中的迁移学习 260
13.1 类别非均衡的迁移学习260
13.2 多源迁移学习263
13.3 开放集迁移学习265
13.4 时间序列迁移学习267
13.4.1 AdaRNN:用于时间序列预测的迁移学习 269
13.4.2 DIVERSIFY:用于时间序列分类的迁移学习271
13.5 在线迁移学习 273
13.6 小结276
参考文献276
14 低资源学习281
14.1 迁移学习模型压缩 281
14.2 半监督学习284
14.2.1 一致性正则化方法285
14.2.2 伪标签和阈值法 287
14.3 元学习290
14.3.1 基于模型的元学习方法 .292
14.3.2 基于度量的元学习方法 .293
14.3.3 基于优化的元学习方法 .295
14.4 自监督学习 297
14.4.1 构造辅助任务 .298
14.4.2 对比自监督学习 .299
14.5 小结300
参考文献301
第III 部分迁移学习的应用与实践
15 计算机视觉中的迁移学习实践309
15.1 目标检测309
15.1.1 任务与数据 309
15.1.2 加载数据 310
15.1.3 模型 313
15.1.4 训练和测试 313
15.2 神经风格迁移315
15.2.1 数据加载 315
15.2.2 模型 316
15.2.3 训练 317
参考文献319
16 自然语言处理中的迁移学习实践320
16.1 情绪分类任务及数据集320
16.2 模型322
16.3 训练和测试323
16.4 预训练??微调324
参考文献325
17 语音识别中的迁移学习实践326
17.1 跨领域语音识别 326
17.1.1 语音识别中的迁移损失 327
17.1.2 CMatch 算法实现.328
17.1.3 实验及结果 332
17.2 跨语言语音识别333
17.2.1 适配器模块 334
17.2.2 基于适配器进行跨语言语音识别335
17.2.3 算法:MetaAdapter 和SimAdapter .336
17.2.4 结果与讨论 337
参考文献339
18 行为识别中的迁移学习实践340
18.1 任务及数据集340
18.2 特征提取341
18.3 源域选择342
18.4 使用TCA 方法进行非深度迁移学习344
18.5 深度迁移学习用于跨位置行为识别345
参考文献350
19 医疗健康中的联邦迁移学习实践351
19.1 任务和数据集351
19.1.1 模型结构 355
19.2 联邦学习基础算法FedAvg 356
19.2.1 客户端更新 357
19.2.2 服务器端更新 .357
19.2.3 结果 358
19.3 个性化联邦学习算法AdaFed 359
19.3.1 相似度矩阵计算 .359
19.3.2 服务器端通信 .361
19.3.3 结果 362
参考文献362
20 回顾与展望364
参考文献367
附录368
常用度量准则368
常见的几种距离 .368
余弦相似度 .369
互信息.369
相关系数 .369
KL 散度与JS 距离 370
最大均值差异MMD .370
Principal Angle .371
A-distance 371
Hilbert-Schmidt Independence Criterion 371
Wasserstein Distance 372
常用数据集372
手写体识别图像数据集 373
对象识别数据集 .374
图像分类数据集 .374
通用文本分类数据集.375
行为识别公开数据集.375
相关期刊会议376
迁移学习资源汇总377
参考文献378