微软、亚马逊、脸书如何靠A/B测试创收上亿美金？(下）

June 29, 2020 Hannah Hou

强调“成功”的定义

每个商业团队都必须为实验定义一个合适的评估体系（这个评估通常不是一个度量，而是多个指标），以与它的战略目标保持一致。这听起来可能很简单，但要确定哪些短期指标能最佳预测长期结果是困难的，许多公司都在这上犯了错误。制定一个全面的评估标准(OEC)——需要深思熟虑和广泛的内部讨论。它需要了解战略目标的高级管理人员和了解指标和权衡的数据分析师之间的密切合作。而且这不是一次性的，我们建议OEC每年调整一次。

从Bing的经验可以看出，实现全面评估（OEC）并不简单。它的主要长期目标是增加搜索引擎查询的市场份额和广告收入。有趣的是，降低搜索结果的相关性会导致用户提出更多的查询(从而增加查询份额)并点击更多的广告(从而增加收入)。显然，这样的收益只是短暂的，因为人们最终会转向其他搜索引擎。那么，哪些短期指标能够预测关于查询份额和收入的长期增长呢? 在讨论OEC时，Bing的高管和数据分析师共同决定，他们希望最小化用户对每个任务或会话的查询数量，同时最大化用户执行的任务或会话数量。

同样重要的是分解OEC的内容并追踪它们，因为它们通常提供了一个想法之所以成功的原因。例如，如果点击次数是OEC不可或缺的一部分，那么衡量页面里的哪个部分被点击就非常有必要。查看不同的衡量标准是至关重要的，因为它有助于团队发现一个实验是否对另一个领域产生了影响。对相关搜索查询结果进行更改的团队可能没有意识到它改变了查询的分布(通过增加相关查询的搜索)，这可能会对收入产生积极或消极的影响。例如搜索“哈利波特”,将显示查询关于哈利波特的书,《哈利·波特》电影，,这些电影的投射,等等。

随着时间的推移，构建和调整OEC以及理解因果缘由变得更加容易。通过运行实验、调试结果并解释它们，公司不仅将获得哪些衡量标准对某些类型的测试最有效的宝贵经验，而且还将开发新的衡量标准。多年来，Bing已经创建了6000多个实验人员可以使用和追踪的指标，这些指标根据测试涉及的领域(网络搜索、图像搜索、视频搜索、广告变化等等)被分组到各种报告模板中。

不要忽视低质量数据

如果人们不相信实验的结果，那么评估标准有多好都无关紧要。获得数据很容易，获得人们可以信任的数据很难。你需要分配时间和资源来验证实验系统，建立自动检查和保障。一种方法是运行严格的A/A测试——即针对其本身进行测试，以确保95%的时间系统正确地识别不存在统计上的显著差异。这种简单的测试方法已经帮助微软识别了数百个无效的实验和公式的不当应用(比如使用一个假设所有测量值都是独立的公式，而实际上这些公式不是独立的)。

我们已经意识到最好的数据科学家都是持怀疑态度的，他们遵循特维曼定律（Twyman‘s law）:任何看起来有趣或与众不同的数据通常都是错误的。令人惊讶的结果应该被复制——以确保它们的有效性和平息人们的怀疑。例如，2013年，Bing对出现在其搜索结果页面上的各种文本的颜色进行了一系列实验，包括标题、链接和标题。尽管颜色变化是非常微小的,但结果却出人意料:在标题中看到略深的蓝色和绿色以及标题中看到略浅的黑色的用户成功搜索的几率更高，找到自己想要的内容的的时间也更短。

任何拥有上千日活(Daily Active User)的公司都能实行A/B测试。通过A/B测试，公司能获取大量用户样本、自动收集网站和APP上大量用户交互数据、以及同时运行多个版本测试，从而快速精准，低成本地评估许多由于颜色的差异几乎是不可见的，所以结果被很多的来自不同学科背景的专家质疑。多年来，微软和许多其他公司一样，一直依靠专业的设计师——而不是实际用户的行为——来定义公司风格和颜色，所以这个实验在3200万用户的更大样本下又重新进行。结果是相似的，分析显示，在向所有用户推出后，这种颜色的细微变化每年将使得微软增加1,000多万美元的收入。

高质量的数据是实现高可信度结果的前提，为实现这一设想，研究人员需要排除数据里的异常值，识别集合错误等等。在网络世界里，这个问题尤其重要。首先是因为网络机器人（internet bots），Bing有超过50%的请求来自机器人，这些数据可能会扭曲结果或增加“干扰”，从而使检测统计的显著性变得更加困难。另一个原因是因为异常数据点（outlier data points）的普遍存在，例如亚马逊发现，某些用户的大量图书订单可能会影响干扰A/B测试，会将他们自动识别为是图书馆账户。

当某些部分的影响比其他部分大得多或小得多时(统计学家称这种现象为“异质处理效应”)。管理者也应该注意，在某些情况下，单个好的或坏的部分可以使平均值倾斜到足以使整体结果无效的程度。在微软的一次实验中，有一部分IE 7用户由于JavaScript错误而无法点击Bing的搜索结果，结果原本是积极的，却因为这个系统bug变成了消极的。一个实验平台应该检测到这种不寻常的部分；如果没有的话，实验人员可能会错把一个好主意当作坏主意而不予考虑。

如果公司在新实验中重复使用上次实验的控制组，结果也可能产生偏差。这种做法导致了“牵连效应”（carryover effects），即人们在实验中的经历改变了他们未来的行为。为了避免这种现象，公司应该在实验之间“洗牌”用户，重新挑选控制对照组。

微软实验平台执行的另一个常见检查是验证实际实验中控制组和实验组的用户比例是否与实验设计相符。当这些差异出现时，就会出现“样本比例不匹配”，这通常会导致结果无效。例如，控制处理组50.2/49.8的比率与预期的50/50比率相差甚远，因此它偶然发生的概率小于50万分之一。这种不匹配经常发生(通常是每周发生一次)，所以团队需要努力理解原因并解决它们。

避免假设因果关系

由于对大数据的大肆宣传，一些高管错误地认为因果关系并不重要。在他们的头脑中，他们所需要做的就是建立相关关系，然后推断出因果关系。这种想法大错特错!

下面的两个例子说明了原因，并强调了缺少控制组实验的缺点。第一个例子是微软的两个团队分别对Office的两个高级功能进行了观察性研究。每个人都得出他们正在评估的新功能减少了用户损耗的结论。然而事实上，几乎所有的高级特性都会显示出这种相关性，因为尝试高级特性的人往往是重度用户，而重度用户往往具有较高的用户粘性，本来就不易损耗。所以，虽然一种新的高级特征可能与更低的拥护损耗有关，但它并不一定是造成损耗降低原因。收到错误提醒的Office用户也有较低的损耗，因为他们也是重度用户。但是这是否意味着向用户显示更多的错误信息会减少消耗呢?结果是否定的。

第二个例子与雅虎所做的一项研究有关，该研究评估了在雅虎网站上显示某个品牌的展示广告是否会增加该品牌名称或相关关键词的搜索量。该研究的观察部分假设这些广告使搜索次数增加了871%，达到了1,198%。但当雅虎进行控制实验时，这个增幅仅为5.4%。如果没有控制实验，公司可能最终会认为广告对搜索量有巨大的影响，而不会意识到搜索的增加是由于在观察期间其他变量的变化。

显然，观察性研究不能确定因果关系。这在医学界是众所周知的，这就是为什么美国FDA要求制药公司进行随机临床试验来证明他们的药物是安全和有效的。

测试中包含太多的变量也可能使得了解因果关系变得困难。这种测试很难理清结果并解释因果关系。理想情况下，实验应该足够简单，这样因果关系就很容易理解。

复杂设计的另一个缺点是实验更容易受到错误的攻击。如果一个新特性有10%的几率触发一个严重的问题，从而需要中止测试，那么包含七个新特性的更改将使得产生致命错误的几率超过50%。

如果你知道两件事的因果联系，但你不知道原因，那该怎么办呢？你应该试着去理解这个因果机制吗？回答是肯定的。

1500到1800年间，大约有200万海员死于坏血病。今天我们知道坏血病是由饮食中缺乏维生素C引起的，水手们产生这种情况是因为他们在长途航行中没有足够的水果供应。1747年，皇家海军的外科医生Dr. James Lind决定做一项实验，测试六种可能的对抗坏血病的治疗方法。在一次航行中，他给一些水手橘子和柠檬，给另一些水手醋。实验表明柑橘类水果可以预防坏血病，尽管没有人知道原因。Dr. James Lind错误地认为水果的酸度是治疗方法，所以他创造一种不易腐烂的治疗方法，那就是把柑橘汁加热成浓缩物，但这种方法极大的破坏了水果中维生素C。所以直到50年后,当没有被加热的柠檬汁添加到船员的日常口粮后，,皇家海军终于消除了坏血病在船员中的肆虐据推测，如果Dr. James Lind用加热和不加热的柠檬汁进行对照实验，坏血病的治愈可能会来得更早并挽救许多人的生命。

这也就是说，你不必总是通过了解“为什么”和“如何做”来获取“是什么”的知识。当涉及到用户的行为时，这一点尤其如此，因为他们的动机很难确定。在Bing，很多最大的突破是在没有基本理论的情况下取得的。例如，尽管Bing能够通过字体颜色的细微变化来改善用户体验，但目前还没有关于颜色的成熟理论来帮助它理解其中的原因。在这里，证据和现象取代了理论的地位。

总结

网络世界通常被认为是动荡和充满危险的，但A/B实验可以帮助我们驾驭它。当答案不明显，人们出现矛盾的观点，或者对一个想法的价值不确定时，A/B测试便是明灯，可以为我们指明正确的方向。

几年前，Bing就是否加大广告规模使得广告主可以在广告中加入特定登陆页面的链接进行了讨论，例如，贷款公司可能会提供“比较利率”和“关于公司”之类的链接，而不是只提供一个到主页的链接。关于这个想法的一个缺点是，这样的广告显然会占据更多的屏幕空间，这将增加用户的不满度。因为参与讨论的人想法不一，所以Bing团队尝试增加广告的大小，但保持分配给广告的整体屏幕空间不变以此显示更少的广告。这样的结果展示，规模更大但数量更少的广告为Bing带来了巨大的改善，使其在不损害用户体验的情况下，营收每年增长逾5,000万美元。

如果你真的想了解一个实验的价值，那么看看它的预期结果和实际结果之间的差异。如果你认为某事会发生，而它确实发生了，那么你并没有学到什么。如果你认为某事会发生而它没有发生，那么你已经学到了一些东西。如果你认为一件小事情将要发生，而结果是一个大惊喜并导致一个突破，你已经学到了非常有价值的东西。

通过将软件的力量与控制实验的科学性结合起来，你的公司可以创建一个学习实验室。你获得的回报是巨大的，如节省成本、增加新的收入和完善的用户体验。如果你想获得竞争优势，你的公司应该建立一种实验能力并且掌握有关在线测试的科学。

近期开课

MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景，让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程。在过去开办的两期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！

以下为往期学员的战绩榜：

《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

今天，MarTechApe《A/B测试企业级实战训练营》正式开启第3期报名！
每一期训练营，我们只招收20名学生。先到先得，遵循阶梯价位，优惠逐额递减，越早报名越优惠！

真枪实弹的A/B测试项目实操，百万量级真实数据+五大应用案例，从零学会A/B测试的里里外外！
为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目，让你在面试时可以自信展示自己亲自做的案例，成功拿下offer！
从0到100真实操作A/B测试项目的全套流程：数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示。
经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程，以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法！
深度学习A/B测试实战中常见的测试陷阱及避免方法。
牢固掌握公司里A/B测试项目中的实际SQL与Python应用，为A/B测试搭建数据库、清理数据、创建数据集。
学会用Python自动化实现A/B测试，为你的老板提高100%的工作效率！
接受系统的统计训练，打下坚实牢固的统计基础，彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。
各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。对互联网科技公司的深度剖析和指标介绍，让你自如面对各类面试考验！
专业的Bootcamp经历简历模版与认证证书，可以晒到LinkedIn等求职网站，大大提高面试邀请率！
福利升级：训练营以往只内推成功从训练营中毕业的学生。但在疫情期间，所有A/B测试实战训练营学员，均可获得全职或实习岗位的内推机会！

Emma老师

美国知名电商Wayfair高级商业分析专家
拥有多年电商A/B测试实战经验，及新人教授经验
精通Advanced SQL, Python等数据分析工具
设计推出的A/B测试，为公司带来上千万美元的收入

Emma老师对学员知无不言，有问必答！无论是面试中遇到的问题，还是工作中遇到的困惑。

整个Bootcamp历时8周，每周3小时课程，共计24小时课时。
周末线上实时授课，课后完成老师布置的作业，助教团队在班级群内随时答疑，直播录像永久回放。
五大课程模块：
- A/B测试商业训练（案例、变量设计、测试计划）
- A/B测试数据技能训练（数据源概况、SQL数据库建立、Python自动化分析）
- A/B测试实验设计训练（A/B测试 vs 准实验、实验步骤、真实商业环境中的实验挑战）
- A/B测试统计训练（统计分析、深度解析）
- A/B测试面试训练
课程内容涵盖了A/B测试在各大互联网科技公司中的完整工作流程：
- A/B测试统计基础与应用场景
- A/B测试实验设计
- A/B测试假设检验、变量选择、流量计算与实验周期计算
- A/B测试各类应用场景中的实验变体与前后测实战分析
- 用SQL与Python完成A/B测试项目实战
- A/B测试结果解读与高阶统计
- 结果展示
每位学员将有一套亲自做的A/B测试成果作品
每位学员获得A/B测试面试真题解题辅导
结课后，每位学员获得提升简历的Industry Project Experience完美描述，所有学员获得内推机会！

完整课程大纲：

上完Bootcamp，有哪些作品可以展示呢？

从数据库搭建、样本选取、实验组与测试组分配、变量选取、实验设计，到实验结果深度分析与PPT展示，学员的精致项目报告就是他们最好的训练营成果，这一份拿的出手的高品质项目，无论是LinkedIn还是面试展示，都会是脱颖而出的最佳帮手！

部分学员作品展示：

长按二维码，添加小助手为好友，回复“AB”，即可报名《A/B测试实战训练营》：

小助手（微信ID：yvonne91_wsn）

熟悉我们的老用户，应该知道我们一直都是实行阶梯价格、优惠递减的，这次也不例外：先到先得、越早报名越优惠（原价$1999美元）。以下价格单位为美元：

第1名～第2名：999美元（优惠$1000）
第3名～第6名：1099美元（优惠$900）
第7名～第10名：1299美元（优惠$700）
第11名～第14名：1399美元（优惠$600）
第15名～第16名：1499美元（优惠$500）
第17名～第18名：1699美元（优惠$300）
第19名：1899美元（优惠$100）
第20名：1999美元（原价）

你是否能在更好的公司做更优秀的自己？投资自己，全方位提升能力，为自己增添被验证有效的宝藏项目经历！赶快报名吧！