2012年，微软的一位Bing的工程师想改变广告标题在Bing的搜索结果中的展现方式。实现这个想法只需要几行代码，但是它被淹没在成百上千的新提议中，没有受到重视。直到6个月后，一名工程师重拾了这个“遗珠”，在Bing上测试了一个实验——A/B Test。通过A/B Test，一部分的用户可以看到改变后的广告展示方式，而另一部分用户看到的界面保持原样不变，以此测试效果。惊人的是，几小时内新的广告展示方式就产生了极高的广告收入，高到监测系统误认为这是一个程序内的bug。这个小小的改变，成功将Bing的收益提高了12%，即每年1亿美金。可谓是Bing史上最厉害的赚钱点子了。

Bing的这个例子告诉我们，一一测试所有的新点子，绝对是一件大工程。但是人们也开始意识到，如果同时进行多个版本简单的测试，性价比极高。

时至今日，Microsoft，Amazon，Booking.com，Facebook，和Google，这样的大体量互联网公司每年进行的实验高达上万个，测试几百万用户的行为。而初创公司，和对互联网依赖程度较低的公司，像Walmart，租车公司，航空公司，也会定期进行小规模测试。因为决策者们普遍发现，“测试一切”的方法能为公司带来极大回报。对Bing来说，A/B测试每月成功地帮助公司敲定了和数十个收益相关的改动，这些改动每年将Bing每次搜索的收益增加了10％-25％。

除此以外，A/B测试也对提升用户满意度做出了巨大贡献。每月数以百计的改动，不仅提高了Bing的获利能力，还将Bing在美国搜索引擎的市场占有率，从初创时的8%提高至23%。

在这个网络对所有行业都至关重要的时代，严格的在线测试应该成为企业标准操作程序中的一环。除了网站，A/B测试还能方便快捷地评估商业模型，企业决策，产品，服务，营销活动等不同方面。有了A/B测试，企业决策的过程变得更科学，告别了依赖直觉，拍脑袋做决定的时代。但是遗憾的是，很多企业并不知道如何科学合理地进行测试，或者测试的次数远远不够。

今天我们来看看，如何合理地设计、执行测试，解读测试结果，解决可能的问题。利用文中的例子，举一反三，你就可以从容应对更复杂的A/B测试。

● 图像尺寸（Image Size）：我们测试了不同的图像尺寸以找到屏幕显示效果最佳的像素数

A/B测试的价值

A/B测试中，实验设计人员会设计两个版本的实验。

A：控制版，通常是已有系统，假设为成功版。
B：实验版，经过改动的版本，借以挑战现存的成功版。

随机分配不同版本给用户体验，并比较两个版本的关键性指标（单变量测试：比较A/B/C，和A/B/C/D版本。多变量测试：同时评估多个变量的不同版本）。不同版本的变量，可以是新功能的增加，用户界面的更改（例如新的排版），后端的改动（例如改进亚马逊书籍推荐的算法）或不同商业模型的测试（例如提供免费送货）。对于决策者关心的，企业运营中的各个环节（比如：销售量，重复使用率，点击率或用户在页面停留的时间），都可以通过线上A/B测试来对其进行优化。

任何拥有上千日活(Daily Active User)的公司都能实行A/B测试。通过A/B测试，公司能获取大量用户样本、自动收集网站和APP上大量用户交互数据、以及同时运行多个版本测试，从而快速精准，低成本地评估许多实验，达到系统的快速迭代，企业发展的迅速转向。在今天，许多科技公司意识到了A/B测试的优点，这些公司有一个单独的团队负责构建、管理和改进测试架构的工作，为产品组提供服务。合理利用A/B测试，会为公司提供极大的竞争优势。

1. 小改变可能有大影响

一个常见的商业误区是：只有大投入才会产生大影响。但在互联网世界并非如此，成功更多源于很多正确的小改变。虽然商业世界更推崇大的、颠覆性的想法，实际上，大多数成功都是通过累积成百上千的小改进来实现的。

再来看一个Microsoft微软的例子，2008年，一名英国的微软员工提出了一个看似很小的建议：当用户点击MSN主页上的Hotmail链接时，自动为Hotmail打开一个新窗口，而不是在同一个页面上跳转至Hotmail。通过在90万英国用户中进行了测试，微软发现了一个激动人心的结果：通过MSN主页打开Hotmail的用户量增加了8.9%。然而，大家对这个改变众说纷纭，因为当时几乎不会有网站会在新的标签页上打开链接，所以微软只在英国采取了这个小小的改变。

2010年6月，Microsoft微软对270万美国用户进行了同样的实验，获得了类似的结果，因此微软开始在全球推行这项改变。除此以外，微软还探寻了此项改变是否能同样作用于其他功能上。在一项针对美国1200万用户的测试中，微软发现，通过在新的标签页上展现用户在MSN的搜索结果，用户点击量增加了5%。新标签中打开链接是一个极易实现的改变，只需几行代码，使这成为了微软提高用户参与度的最佳方法之一。除了Microsoft微软，Facebook脸书、Twitter推特等在内的许多网站至今都在使用这项技术。

微软的例子并非独一无二。亚马逊在测试中发现，将信用卡优惠活动从网站主页移到购物车页面，每年可增加数千万美元的利润。

这些公司的经验说明，小投资可以产生大回报。然而，大投资可能只很产生很少，甚至0回报。比如微软曾花费超过2500万美元，将Bing必应与社交媒体一体化——在搜索结果页面的第三窗格内展示Facebook和Twitter的相关内容，但此举在用户参与度和收入方面产生的影响微乎其微。

2. 实验可以引导投资决策

线上测试可以帮助决策者了解对于潜在改进的理想投资数额。举个例子，微软曾面临一个问题：如何缩短Bing显示搜索结果所需时间。当然，结果显示肯定是越快越好。但是公司该如何量化提高搜索速度所带来的价值呢？团队应该用3个人、10个人还是50个人来提升性能呢？为了解决这些问题，微软进行了一系列的A/B测试：通过为搜索速度添加人为延迟，研究了加载速度的细微差异所产生的影响。数据表明，每100毫秒加载速度差异对公司收益的影响为0.6%。与此同时，Bing必应的年收益已经超过30亿美元，那么每100毫秒的提速就能增加1800万美元的年收入——足以维持一个规模可观的团队运作。

A/B测试结果也帮助了必应Bing权衡重要商业决策，尤其是那些可能提高搜索结果相关性，但会减慢软件响应速度的功能。为了避免多个小改动累积导致的显著性能下降，Bing会在团队改良搜索引擎和其他组件性能后，再上线会降低响应速度毫秒或以上的新功能。

大浪淘沙始见金

早在100年以前，百货公司老板John Wanamaker就有一句营销名言：“我在广告上的投入有一半都是浪费，但我不知道是哪一半。”这句话同样适用于A/B测试，因为绝大部分试图超越已有版本的新实验都会以失败告终，即使是专家也经常错误地估计实验结果。在Google和Bing，只有10%~20%的测试会有积极成果。在Microsoft，1/3的测试有积极影响，1/3的有负面影响，还有1/3没有产生影响。这就像青蛙王子的故事，想要发现好点子，公司需要亲吻很多青蛙（进行大量的实验）才能找到王子。

1. A/B测试极易被错误使用

正式进行A/B测试之前，团队应该确保测试版本既不会降低性能，也不会产生意料之外的结果。在必应Bing，除了一些低风险的bug修复和硬件类操作系统升级，其余80%的改动会首先以控制变量的实验方式进行。

大部分的科学测试的基础框架都需要以下几项：记录工具（记录例如用户点击、鼠标悬停和事件时间等数据)、数据流和专业的数据科学家。随着A/B测试的发展和普及，网络上出现了一些针对A/B测试的第三方工具和服务。但如果企业有大规模测试的需求，第三方工具和服务很难胜任。稳定的基础框架能降低每次的实验成本，并提高实验结果可靠性。相反，如果基础框架缺失，企业测试的成本会居高不下，从而导致决策者不愿进一步投入，或进行更多试验。

微软的A/B测试基础架构就是一个优秀范例：Microsoft的分析实验团队有80多人，每天可以实行数以百计的产品在线对照试验（包括Bing, Cortana, Exchange, MSN, Office, Skype, Windows和Xbox等各种产品）。每次测试会有数十万至千万用户参与试用新改动，团队对测试结果进行严密的统计分析，并自动生成记分板，一一检查几百到上千个指标后，标记那些成效显著的改动。（当然如果你的企业规模较小，或对实验依赖度较低，实验团队投入可以降低）

3. 三种企业常见的实验团队人员结构：

1.集中型（Centralized model）

集中型结构意味着会有一组数据科学家为整个公司服务。这种结构的优点是，实验组人员可以持续关注长期项目，比如设计更好的实验工具和开发更先进的统计算法。但一大缺点是，一个实验组在服务所有产品组时，会对实验任务有不同的优先级，这可能导致各组之间资源和成本分配的冲突。另一个问题是，当数据科学家着手商业项目时，可能会因为缺乏专业知识和商业经验而难以将实验结果关联起来，更难看到结果背后的关键点。除此以外，数据科学家的身份可能缺乏影响力，无法说服决策层相信实验结果或者为技术投资。

2.分离型（Decentralized model）

分离型结构是企业为不同的业务部门配置数据科学家。这种的优点是，数据科学家可以成为其负责业务领域的专家。但缺点也很明显：对于员工而言，只为一个业务部门工作，数据科学家未来的职业道路并不明朗，同时也会缺乏同事的反馈和指导。而对于实验而言，只针对单个部门的实验可能不足以证明改动提案的合理性。

3.卫星型（Center-of-excellence model）

卫星型是让一些数据科学家成为团队，集中工作，剩余的数据科学家分散在不同的业务部门（微软采用的结构）。团队中心主要负责对照实验的设计、执行和结果分析。有了团队统一为公司构建的实验平台和实验工具，企业可以显著降低A/B测试所需的时间和资源。除此以外，团队还能基于优秀实验开设课程，举办Lab和会议，在全公司范围推广。卫星型结构的主要的缺点是，中心团队和产品团队的责任划分可能并不明晰，比如当需要增加测试数量时，哪个团队应为招聘更多的数据科学家来买单呢？

实验团队结构的好坏不是绝对的非黑即白。小公司一般会使用第三方服务，或者从集中型结构起步。待公司发展壮大后，转向其他结构。对于拥有多个业务组的大公司，那些高度依赖测试的业务组管理层，会在企业统一规划前实行测试，那么分离型结构就较为适用这种情况。如果在线实验是公司决策环节中的不可或缺的一环，可以通过卫星型结构的中心团队先构建实验范例，制定实验标准，然后再将其推行至各个业务部门。

如果你或者你的团队想接受系统科学的A/B测试企业级培训，那么千万别错过MarTechApe的《A/B测试企业级实战训练营》！以真实商业场景中的复杂A/B测试问题为项目背景，让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程。

在过去开办的两期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！

以下为往期学员的战绩榜：

今天，MarTechApe《A/B测试企业级实战训练营》正式开启第3期报名！
每一期训练营，我们只招收20名学生。先到先得，遵循阶梯价位，优惠逐额递减，越早报名越优惠！

真枪实弹的A/B测试项目实操，百万量级真实数据+五大应用案例，从零学会A/B测试的里里外外！
为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目，让你在面试时可以自信展示自己亲自做的案例，成功拿下offer！
从0到100真实操作A/B测试项目的全套流程：数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示。
经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程，以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法！
深度学习A/B测试实战中常见的测试陷阱及避免方法。
牢固掌握公司里A/B测试项目中的实际SQL与Python应用，为A/B测试搭建数据库、清理数据、创建数据集。
学会用Python自动化实现A/B测试，为你的老板提高100%的工作效率！
接受系统的统计训练，打下坚实牢固的统计基础，彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。
各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。对互联网科技公司的深度剖析和指标介绍，让你自如面对各类面试考验！
专业的Bootcamp经历简历模版与认证证书，可以晒到LinkedIn等求职网站，大大提高面试邀请率！
福利升级：训练营以往只内推成功从训练营中毕业的学生。但在疫情期间，所有A/B测试实战训练营学员，均可获得全职或实习岗位的内推机会！

Emma老师

美国知名电商Wayfair高级商业分析专家
拥有多年电商A/B测试实战经验，及新人教授经验
精通Advanced SQL, Python等数据分析工具
设计推出的A/B测试，为公司带来上千万美元的收入

整个Bootcamp历时8周，每周3小时课程，共计24小时课时。
周末线上实时授课，课后完成老师布置的作业，助教团队在班级群内随时答疑，直播录像永久回放。
五大课程模块：
- A/B测试商业训练（案例、变量设计、测试计划）
- A/B测试数据技能训练（数据源概况、SQL数据库建立、Python自动化分析）
- A/B测试实验设计训练（A/B测试 vs 准实验、实验步骤、真实商业环境中的实验挑战）
- A/B测试统计训练（统计分析、深度解析）
- A/B测试面试训练
课程内容涵盖了A/B测试在各大互联网科技公司中的完整工作流程：
- A/B测试统计基础与应用场景
- A/B测试实验设计
- A/B测试假设检验、变量选择、流量计算与实验周期计算
- A/B测试各类应用场景中的实验变体与前后测实战分析
- 用SQL与Python完成A/B测试项目实战
- A/B测试结果解读与高阶统计
- 结果展示
每位学员将有一套亲自做的A/B测试成果作品
每位学员获得A/B测试面试真题解题辅导
结课后，每位学员获得提升简历的Industry Project Experience完美描述，所有学员获得内推机会！

1. A/B测试商业训练

了解A/B测试在顶流科技公司中的各类应用场景
了解A/B测试适用的商业问题与它的局限
了解科技公司产品团队如何使用A/B测试
面对商业问题，如何设计有效的假设？
如何制定A/B测试的实验计划与执行框架？

2. A/B测试数据技能

搭建一个真实的A/B测试实验数据库
了解A/B测试中常面临的数据问题
用SQL对数据进行清洗与转制，完成样本选取、组别分配、变量选取等实验步骤，为A/B测试做好数据准备
用Python搭建A/B测试分析流程

学员在项目中重点使用SQL与Python，全方位了解A/B测试中涉及的数据库搭建、样本选取、实验组与测试组分配、变量选取等数据分析步骤。并且充分掌握用Python搭建A/B测试结果分析流程，实现A/B测试自动化，对真实工作中的A/B测试分析了如指掌。简而言之，项目后，你不仅将牢固掌握SQL与Python等最热门的数据分析软件，还将成为真正的A/B测试技术流，完全掌握A/B测试这项数据分析工作中最重要的技能。

3. A/B测试实验设计

充分了解A/B测试的实验步骤
设立零假设与被择假设
确认实验指标，设计实验变量
根据指标类型确认统计检验方法
估算样本量，确定实验周期
置信区间与统计功效
A/B测试中的各类偏差
样本量不够或其他实验条件不满足时的实验设计
了解准实验与A/B测试的应用区别
为项目案例设计A/B测试实验

学员在项目中将透彻学习实验方法与实验设计。在这个环节中，将研究如何制定实验方案，以提高实验效率，缩小随机误差的影响，并使实验结果能有效地进行统计分析。学习在工作场景中如何用A/B测试等实验来提高用户激活/活跃/留存等关键的产品指标，提升产品功能表现，真正理解A/B测试的商业价值与业务地位。

4. A/B测试统计训练