本书针对产业界在智能化过程中普遍面临的数据不足问题,详细地阐述了联邦学习如何帮助企业引入更多数据、提升机器学习模型效果。互联网数据一般分布在不同的位置,受隐私保护法规限制不能共享,形成了“数据孤岛”。联邦学习像“数据孤岛”之间的特殊桥梁,通过传输变换后的临时变量,既能实现模型效果提升,又能确保隐私信息的安全。
本书介绍了联邦学习技术的原理和实战经验,主要内容包括隐私保护、机器学习等基础知识,联邦求交、联邦特征工程算法,三种常见的联邦形式,以及工程架构、产业案例、数据资产定价等。
适读人群 :本书内容源自产业实践经验,适合机器学习、数据挖掘和产业智能化领域的从业者与求职者阅读,也适合对联邦学习感兴趣的学术和研究人员阅读。 在大数据时代,企业面临的问题不是真的没有数据可用,而是鉴于数据安全,出现了数据孤岛,无法应用数据。联邦学习是密码学、分布式计算和机器学习三个学科交叉的技术,可以很好地解决数据隐私和安全的问题。
本书由京东科技集团有多年联邦学习实战经验的二十多位作者合作编写,内容可分为联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三个大部分,并给出较多案例。
本书用300多页的篇幅详细地介绍了联邦学习的原理和应用。
写作背景
联邦学习迅速成了产业界的宠儿,很多互联网企业纷纷投入研发资源,并进行市场布局。这项技术于2016年被谷歌提出,在2019年年初被引入国内,在2020年即已出现数十家企业提供的产品,并出现了大规模的商业应用,这种速度在新技术应用中实属罕见。
究其原因,是因为联邦学习可以解决企业之间的“数据孤岛”问题,让企业可以通过使用更多的数据提高AI模型的效果,为用户提供更便捷的个性化服务。同时,在这个过程中数据是安全的,用户的隐私信息不会被输出和泄露,因此这项技术不但不会损害合作企业的利益,而且可以为其带来额外的收益。对于用户而言,他们既可以享受个性化服务质量的提升,又不用担心具体隐私信息的传播,有利而无害,因此愿意授权互联网服务商通过这种安全的方式使用外部数据。对于市场监管而言,这种方式的跨企业数据服务不是直接复制数据,而是需要通过联邦网络,由联邦参与方共同确认才能产生结果,这解决了使用传统方式造成的数据被任意复制、难以监管的难题。
从技术层面来看,联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,涉及面较广,部署实施难度大,很多具体问题需要跨领域的综合知识才能解决。一方面,在人才市场中拥有这种综合知识的人才十分稀缺,很多项目都面临无人可用的困境。另一方面,越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。不幸的是,市面上相关的书籍还很少,网络博文往往不够系统和深入。我们在联邦学习产品化、产业实战过程中积累了大量经验,撰写了这本关于技术与实战的书,希望帮助读者更好地掌握联邦学习。我们也希望与互联网伙伴一起,组建更大的联邦网络,在确保用户隐私数据安全的前提下,为用户提供更优质的服务,促进跨企业大数据行业的健康发展。
如何阅读本书?
本书详细地阐述了联邦学习的相关概念,同时给出了较多案例,适合对联邦学习感兴趣的读者阅读。本书在必要之处给出数学公式,读者在阅读这些小节时需要具备统计学的基础知识。
我们对本书进行了系统性的编排和统筹。本书共12章,包括联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三大部分。各个部分相对独立,读者可依据目标和兴趣进行有选择性地重点阅读。
第1章~第3章为联邦学习基础,旨在帮助读者了解联邦学习的市场背景、技术现状,以及基础的隐私保护技术、机器学习技术和分布式计算技术。建议联邦学习的初学者和求职者重点阅读这个部分,借以梳理清楚联邦学习的基本问题和基本技术。第1章从全局的角度概述了联邦学习的基本问题,用于建立对联邦学习的总体认识,主要由陈玉林和范昊撰写。第2章介绍多方计算和隐私保护,是联邦学习成功地解决数据孤岛问题,实现跨企业大数据融合的关键,主要由周帅撰写。第3章介绍传统机器学习,包括基本概念、方法和效果评价,是联邦学习建立联合模型、有效地利用多方数据解决业务问题的基础,主要由王帝撰写。
第4章~第8章为具体的联邦学习算法,旨在帮助读者了解具体算法的应用背景、特点和扩展方法,进而帮助读者根据需求选择合适的算法,适合联邦学习从业者进行重点阅读。第4章介绍联邦交集计算的相关理论和具体方法,用于提供联邦数据之间的对应关系,主要由王森和何天琪撰写。第5章介绍联邦特征工程的相关理论和具体方法,用于为联邦学习提供符合业务需求的输入数据,同时还可以减少噪声、提高效率等,主要由张一凡撰写。第6章~第8章分别介绍纵向联邦学习、横向联邦学习和联邦迁移学习这三种方案的架构、方法和案例。纵向联邦学习用于解决相同用户在不同企业场景中产生的数据的联合建模问题,主要由陈忠和李怡欣撰写。横向联邦学习用于解决不同用户在相同场景中产生的数据的联合建模问题,主要由敖滨和张润泽撰写。联邦迁移学习用于解决不同用户在不同场景中产生的数据的联合建模问题,主要由王森撰写。
第9章~第12章为联邦学习的产业应用和展望,旨在帮助读者了解联邦学习技术的商业应用现状、挑战、趋势,以及与数据资产和要素市场的关联,据此引发读者进一步思考。该部分较为宏观,涉及面广,适合联邦学习相关的项目管理者重点阅读。第9章介绍了常见的开源架构、训练服务和推理架构,并对具体部署过程中遇到的通信、资源不足等问题给出了优化方案,主要由张德、陈行、闫玉成、孙浩博、黄乐乐、肖祥文撰写。第10章介绍产业案例,包括联邦学习在医疗健康、金融产品广告投放、风控金融等场景中的应用,主要由王博、季澈和石薇撰写。第11章从数据自身价值出发阐述数据资产的相关概念和特征,据此引出联邦学习应用中的激励机制和定价模型,主要由吴极、孙果和周帅撰写。第12章介绍联邦学习的挑战和可扩展性,由陈玉林和陈晓霖撰写。
致谢
本书是很多人共同努力的结果,在此感谢各位作者的辛勤付出。同时,在本书后期的整理和内容统筹过程中,何彦婷、刘云、孟璐、张竹清等同事做出了贡献,在此表示衷心的感谢。
我们要感谢刘威老师,经过刘威老师的介绍,我们和电子工业出版社的石悦编辑相识,最终达成了合作。在审稿过程中,石悦编辑多次邀请专家给出宝贵意见,对书稿的修改完善起到了重要作用。在此感谢石悦编辑对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足之处在所难免。此外,由于联邦学习方兴未艾,技术不断完善,新算法层出不穷,本书难免有所遗漏,敬请专家和读者批评指正。
彭南博 王虎
2020年12月
彭南博,京东科技集团风险管理中心总监,在人工智能算法、风控模型等领域具有丰富的实践经验。他负责风险智能模型技术布局和业务落地,建立了数据、算法、工程三位一体的大数据应用体系。在联邦学习应用实践中,他领导团队研发联邦学习技术和产品,为风险业务建立了基于联邦学习的模型工程架构、模型管理体系、模型监控体系。他于2012年在中国科学院大学获得博士学位,先后参与三项国家基金项目,发表期刊和会议论文10余篇,申请专利70余项。
王虎,京东科技集团风险管理中心算法科学家,在机器学习和数据挖掘领域具有丰富的产业应用经验。他负责风险场景的模型研发,针对风险数据孤岛问题,调研并论证联邦学习技术的可行性,完成了从0到1的联邦风控应用创新,负责联邦组网过程中的算法研发和模型优化。他于2012年在中国科学院大学获得博士学位,其后负责并完成了药物副作用挖掘、电力销量预测、驾驶员状态分析、基于穿戴式医疗设备的健康评估等机器学习项目。