本书基于近些年实验领域的研究成果和实践经验,对实验的方法和应用做了很好的全景式描述,是一本兼顾系统性的方法论和基于实战的经验法则的书籍。根据微软、亚马逊、谷歌和领英每年运行的两万多个对照实验,作者以示例和建议的方式向学生和业内人士分享了自己的实践经验,指出了需要避免的陷阱,并深入探讨了一些进阶专题,可以为希望改善自身及机构数据驱动决策方式的从业者提供参考。
全书分为五个部分:第I部分由四章组成。第1章概述运行线上对照实验的好处,并介绍实验相关术语。第2 章用一个例子剖析运行实验的全过程。第3 章描述常见的陷阱以及如何建立实验的可信赖度。第4 章概述如何搭建实验平台并规模化线上实验。第II部分的五章内容介绍实验的基础原理,比如机构指标。我们推荐所有人阅读这一部分,尤其是领导者和高管。第III部分的两章内容介绍线上对照实验的补充技法,可以帮助管理层、数据科学家、工程师、分析师、产品经理等进行资源和时间的投资。第IV部分专注于实验平台的搭建,面向工程师群体。最后,第V部分深入讨论进阶的实验分析专题,面向数据科学家。
如果我们有数据,那就看数据。
如果我们只有观点,那就按我的观点来。
——Jim Barksdale,网景前首席执行官
本书旨在分享多年来Ron在亚马逊和微软、Diane在谷歌以及Ya在微软和领英大规模运行线上对照实验积累的实践经验。虽然我们不是代表谷歌、领英或微软官方,而是以个人身份写作此书,但书中凝聚了我们工作多年积累的关键经验教训和遇到的常见陷阱,并提供了软件平台的搭建以及公司文化的培养方面的指导:如何利用线上对照实验建立数据驱动文化而不是依赖HiPPO(Highest Paid Person’s Opinion,最高薪者的意见)(R. Kohavi, HiPPO FAQ 2019)。我们相信书中的很多经验适用于各种线上环境,不论是大大小小的公司,还是具体到公司内部的团队或组织。书中强调了评估实验结果可信赖度的必要性。我们相信特威曼定律蕴含的怀疑论:任何看起来有趣或与众不同的数字通常都是错的。我们鼓励读者对实验结果,尤其是有突破性的正面结果做二次检查,以及做验证性测试。获得数据很简单,但获得你能信任的数据很难!
本书第一部分适合所有读者,由四章组成。第1章概述运行线上对照实验的好处,并介绍实验相关术语。第2章用一个例子剖析运行实验的全过程。第3章描述常见的陷阱以及如何建立实验的可信赖度。第4章概述如何搭建实验平台并规模化线上实验。
第二部分到第五部分针对一些特定的读者群体,当然也欢迎其他读者按需阅读。第二部分的五章内容介绍实验的基础原理,比如机构指标。我们推荐所有人阅读这一部分,尤其是领导者和高管。第三部分的两章内容介绍线上对照实验的补充技法,可以帮助管理层、数据科学家、工程师、分析师、产品经理等进行资源和时间的投资。第四部分专注于实验平台的搭建,面向工程师群体。最后,第五部分深入讨论进阶的实验分析专题,面向数据科学家。
本书的配套网站为https://experimentguide.com,它囊括了更多的材料和勘误,并提供了开放性讨论的空间。本书作者的所有收益将捐献给慈善机构。
作者简介:
罗恩·科哈维(Ron Kohavi)是爱彼迎的副总裁和技术院士,曾任微软的技术研究员和公司副总裁。在加入微软之前,他是亚马逊的数据挖掘和个性化推荐总监。他拥有斯坦福大学计算机科学博士学位,论文被引用超过40 000次,其中有3篇位列计算机科学领域引用最多的1 000篇论文榜。
黛安·唐(Diane Tang)是谷歌院士,大规模数据分析和基础设施、线上对照实验及广告系统方面的专家。她拥有哈佛大学的文学学士学位和斯坦福大学的硕士及博士学位,在移动网络、信息可视化、实验方法、数据基础设施、数据挖掘和大数据方面拥有专利和出版物。
许亚(Ya Xu)是领英数据科学与实验平台负责人,曾撰写了多篇关于实验的论文,并经常在顶级会议和大学演讲。她曾在微软工作,拥有斯坦福大学的统计学博士学位。
译者简介:
韩玮:爱彼迎数据科学资深专家,专注于搜索算法和实验领域,之前在沃尔玛实验室负责相关工作。她于宾夕法尼亚大学获得应用数学博士学位和统计学硕士学位,本科毕业于中国科学技术大学数学系。
胡鹃娟:现任爱彼迎数据科学家,拥有四年的A/B 实验分析经验。此前在领英任资深数据科学家。于加州大学戴维斯分校获得统计学硕士学位、香港中文大学获得金融硕士学位,本科毕业于中国科学技术大学00 班统计专业。
段玮韬:领英资深应用研究专家,现负责领英实验科学团队。他与许亚一起在实验领域紧密合作长达5 年之久,书中的很多材料和结论都提炼自他和许亚的工作经验。
胡泽浩:优步数据科学经理,优步人工智能和增长平台两个数据科学团队的负责人,拥有五年用数据及实验驱动产品开发的经验。于宾夕法尼亚大学获得经济学博士学位,本科毕业于香港大学经济系。
廖一正:爱彼迎资深数据科学家,负责爱彼迎中国区搜索引擎算法开发,领导着实验分析委员会。于斯坦福大学获得土木与环境工程博士学位,研究领域为应用机器学习和统计。
王璐:雪花(Snowflake)计算数据科学家,拥有将近七年的实验设计与分析、统计建模以及产品分析经验。曾任爱彼迎数据科学家以及吉利德科学生物统计师。于加州大学洛杉矶分校获得生物统计博士学位,本科毕业于浙江大学生物信息系。
赵振宇:腾讯数据科学总监。此前先后在雅虎和优步负责实验系统、因果推断、机器学习应用研究和平台建设,以及开源项目研发工作。于美国西北大学获得统计学博士学位,本科毕业于中国科学技术大学。
钟婧:苹果公司Siri 部门资深数据科学家,此前先后在微软必应部门及脸书公司从事机器学习建模和A/B 实验、用户和产品数据分析、产品战略分析等方向的研究工作。于密歇根大学获得博士学位,本科毕业于清华大学电子工程系。
本书赞誉
译者序
前言——如何阅读本书
致谢
第一部分 线上对照实验概览
第1章 概述和写作动机003
1.1 线上对照实验的术语005
1.2 为什么进行实验?相关性、因果关系和可信赖度008
1.3 有效运行对照实验的必要元素010
1.4 宗旨011
1.5 随时间推移的改进013
1.6 有趣的线上对照实验实例015
1.7 战略、战术及它们和实验的关系020
1.8 补充阅读 023
第2章 运行和分析实验——一个全程剖析的案例025
2.1 设立实验025
2.2 假设检验:确立统计显著性028
2.3 设计实验030
2.4 运行实验并获得数据032
2.5 分析结果033
2.6 从结果到决策034
第3章 特威曼定律与实验的可信赖度037
3.1 曲解统计结果038
3.2 置信区间041
3.3 对内部有效性的威胁041
3.4 对外部有效性的威胁046
3.5 细分群的差异049
3.6 辛普森悖论 052
3.7 鼓励健康的怀疑态度054
第4章 实验平台和文化055
4.1 实验成熟度模型055
4.2 基础设施和工具062
第二部分 基础原理
第5章 速度很重要:一个全程案例剖析075
5.1 关键假设:局部线性近似077
5.2 如何测量网站的性能078
5.3 减速实验的设计080
5.4 对不同页面元素的影响是不同的081
5.5 极端结果083
第6章 机构指标085
6.1 指标的分类086
6.2 指标的制定:原则和技术089
6.3 指标的评估091
6.4 指标的演变092
6.5 更多的资源093
6.6 补充材料:护栏指标093
6.7 补充材料:可操纵性095
第7章 实验指标和综合评估标准097
7.1 从业务指标到适用于实验的指标098
7.2 将关键指标组合成一个OEC099
7.3 案例:亚马逊电子邮件的OEC101
7.4 案例:必应搜索引擎的OEC103
7.5 Goodhart法则、Campbell法则以及Lucas批判104
第8章 机构的经验传承与统合分析107
8.1 什么是机构的经验传承107
8.2 为什么机构的经验传承有用108
第9章 对照实验中的伦理111
9.1 背景111
9.2 数据收集116
9.3 文化与流程117
9.4 补充材料:用户标识符117
第三部分 补充及替代技法
第10章 补充技法121
10.1 补充技法的空间121
10.2 基于日志的分析122
10.3 人工评估124
10.4 用户体验调研125
10.5 焦点小组125
10.6 问卷调查126
10.7 外部数据127
10.8 总结129
第11章 观察性因果研究131
11.1 对照实验不可行的情况131
11.2 观察性因果研究的设计133
11.3 陷阱138
11.4 补充材料:被驳斥的观察性因果研究141
第四部分 实验平台搭建
第12章 客户端实验145
12.1 服务器端和客户端的差异145
12.2 对实验的潜在影响148
12.3 结论152
第13章 工具化日志记录153
13.1 客户端与服务器端的工具化日志记录153
13.2 处理多源的日志155
13.3 工具化日志记录的文化156
第14章 选择随机化单元157
14.1 随机化单元和分析单元159
14.2 用户级别的随机化160
第15章 实验放量:权衡速度、质量与风险163
15.1 什么是放量163
15.2 SQR放量框架164
15.3 四个放量阶段165
15.4 最终放量之后168
第16章 规模化实验分析169
16.1 数据处理169
16.2 数据计算170
16.3 结果汇总和可视化172
第五部分 实验分析
第17章 线上对照实验中的统计学知识177
17.1 双样本t检验177
17.2 p值和置信区间178
17.3 正态性假设179
17.4 第一/二型错误和统计功效181
17.5 偏差183
17.6 多重检验183
17.7 费舍尔统合分析184
第18章 方差估计和提高灵敏度:陷阱及解决方法185
18.1 常见陷阱186
18.2 提高灵敏度189
18.3 其他统计量的方差190
第19章 A/A测试193
19.1 为什么运行A/A测试193
19.2 如何运行A/A测试198
19.3 A/A测试失败时199
第20章 以触发来提高实验灵敏度201
20.1 触发示例201
20.2 数值示例204
20.3 最佳的和保守的触发205
20.4 总体实验效应206
20.5 可信赖的触发207
20.6 常见的陷阱207
20.7 开放性问题209
第21章 样本比率不匹配与其他可信度相关的护栏指标211
21.1 样本比率不匹配212
21.2 调试SRM214
第22章 实验变体之间的泄露和干扰219
22.1 示例220