MarTechApe

View Original

微软、亚马逊、脸书如何靠A/B测试创收上亿美金?(上)

2012年,微软的一位Bing的工程师想改变广告标题在Bing的搜索结果中的展现方式。实现这个想法只需要几行代码,但是它被淹没在成百上千的新提议中,没有受到重视。直到6个月后,一名工程师重拾了这个“遗珠”,在Bing上测试了一个实验——A/B Test。通过A/B Test,一部分的用户可以看到改变后的广告展示方式,而另一部分用户看到的界面保持原样不变,以此测试效果。惊人的是,几小时内新的广告展示方式就产生了极高的广告收入,高到监测系统误认为这是一个程序内的bug。这个小小的改变,成功将Bing的收益提高了12%,即每年1亿美金。可谓是Bing史上最厉害的赚钱点子了。

Bing的这个例子告诉我们,一一测试所有的新点子,绝对是一件大工程。但是人们也开始意识到,如果同时进行多个版本简单的测试,性价比极高。

时至今日,Microsoft,Amazon,Booking.com,Facebook,和Google,这样的大体量互联网公司每年进行的实验高达上万个,测试几百万用户的行为。而初创公司,和对互联网依赖程度较低的公司,像Walmart,租车公司,航空公司,也会定期进行小规模测试。因为决策者们普遍发现,“测试一切”的方法能为公司带来极大回报。对Bing来说,A/B测试每月成功地帮助公司敲定了和数十个收益相关的改动,这些改动每年将Bing每次搜索的收益增加了10%-25%。

除此以外,A/B测试也对提升用户满意度做出了巨大贡献。每月数以百计的改动,不仅提高了Bing的获利能力,还将Bing在美国搜索引擎的市场占有率,从初创时的8%提高至23%。

在这个网络对所有行业都至关重要的时代,严格的在线测试应该成为企业标准操作程序中的一环。除了网站,A/B测试还能方便快捷地评估商业模型,企业决策,产品,服务,营销活动等不同方面。有了A/B测试,企业决策的过程变得更科学,告别了依赖直觉,拍脑袋做决定的时代。但是遗憾的是,很多企业并不知道如何科学合理地进行测试,或者测试的次数远远不够。

今天我们来看看,如何合理地设计、执行测试,解读测试结果,解决可能的问题。利用文中的例子,举一反三,你就可以从容应对更复杂的A/B测试。

● 图像尺寸(Image Size):我们测试了不同的图像尺寸以找到屏幕显示效果最佳的像素数

A/B测试的价值

A/B测试中,实验设计人员会设计两个版本的实验。

  • A:控制版,通常是已有系统,假设为成功版。

  • B:实验版,经过改动的版本,借以挑战现存的成功版。

随机分配不同版本给用户体验,并比较两个版本的关键性指标(单变量测试:比较A/B/C,和A/B/C/D版本。多变量测试:同时评估多个变量的不同版本)。不同版本的变量,可以是新功能的增加,用户界面的更改(例如新的排版),后端的改动(例如改进亚马逊书籍推荐的算法)或不同商业模型的测试(例如提供免费送货) 。对于决策者关心的,企业运营中的各个环节(比如:销售量,重复使用率,点击率或用户在页面停留的时间),都可以通过线上A/B测试来对其进行优化。

任何拥有上千日活(Daily Active User)的公司都能实行A/B测试。通过A/B测试,公司能获取大量用户样本、自动收集网站和APP上大量用户交互数据、以及同时运行多个版本测试,从而快速精准,低成本地评估许多实验,达到系统的快速迭代,企业发展的迅速转向。在今天,许多科技公司意识到了A/B测试的优点,这些公司有一个单独的团队负责构建、管理和改进测试架构的工作,为产品组提供服务。合理利用A/B测试,会为公司提供极大的竞争优势。

1. 小改变可能有大影响

一个常见的商业误区是:只有大投入才会产生大影响。但在互联网世界并非如此,成功更多源于很多正确的小改变。虽然商业世界更推崇大的、颠覆性的想法,实际上,大多数成功都是通过累积成百上千的小改进来实现的。

再来看一个Microsoft微软的例子,2008年,一名英国的微软员工提出了一个看似很小的建议:当用户点击MSN主页上的Hotmail链接时,自动为Hotmail打开一个新窗口,而不是在同一个页面上跳转至Hotmail。通过在90万英国用户中进行了测试,微软发现了一个激动人心的结果:通过MSN主页打开Hotmail的用户量增加了8.9%。然而,大家对这个改变众说纷纭,因为当时几乎不会有网站会在新的标签页上打开链接,所以微软只在英国采取了这个小小的改变。

2010年6月,Microsoft微软对270万美国用户进行了同样的实验,获得了类似的结果,因此微软开始在全球推行这项改变。除此以外,微软还探寻了此项改变是否能同样作用于其他功能上。在一项针对美国1200万用户的测试中,微软发现,通过在新的标签页上展现用户在MSN的搜索结果,用户点击量增加了5%。新标签中打开链接是一个极易实现的改变,只需几行代码,使这成为了微软提高用户参与度的最佳方法之一。除了Microsoft微软,Facebook脸书、Twitter推特等在内的许多网站至今都在使用这项技术。

微软的例子并非独一无二。亚马逊在测试中发现,将信用卡优惠活动从网站主页移到购物车页面,每年可增加数千万美元的利润。

这些公司的经验说明,小投资可以产生大回报。然而,大投资可能只很产生很少,甚至0回报。比如微软曾花费超过2500万美元,将Bing必应与社交媒体一体化——在搜索结果页面的第三窗格内展示Facebook和Twitter的相关内容,但此举在用户参与度和收入方面产生的影响微乎其微。

2. 实验可以引导投资决策

线上测试可以帮助决策者了解对于潜在改进的理想投资数额。举个例子,微软曾面临一个问题:如何缩短Bing显示搜索结果所需时间。当然,结果显示肯定是越快越好。但是公司该如何量化提高搜索速度所带来的价值呢?团队应该用3个人、10个人还是50个人来提升性能呢?为了解决这些问题,微软进行了一系列的A/B测试:通过为搜索速度添加人为延迟,研究了加载速度的细微差异所产生的影响。数据表明,每100毫秒加载速度差异对公司收益的影响为0.6%。与此同时,Bing必应的年收益已经超过30亿美元,那么每100毫秒的提速就能增加1800万美元的年收入——足以维持一个规模可观的团队运作。

A/B测试结果也帮助了必应Bing权衡重要商业决策,尤其是那些可能提高搜索结果相关性,但会减慢软件响应速度的功能。为了避免多个小改动累积导致的显著性能下降,Bing会在团队改良搜索引擎和其他组件性能后,再上线会降低响应速度毫秒或以上的新功能。

大浪淘沙始见金

早在100年以前,百货公司老板John Wanamaker就有一句营销名言:“我在广告上的投入有一半都是浪费,但我不知道是哪一半。”这句话同样适用于A/B测试,因为绝大部分试图超越已有版本的新实验都会以失败告终,即使是专家也经常错误地估计实验结果。在Google和Bing,只有10%~20%的测试会有积极成果。在Microsoft,1/3的测试有积极影响,1/3的有负面影响,还有1/3没有产生影响。这就像青蛙王子的故事,想要发现好点子,公司需要亲吻很多青蛙(进行大量的实验)才能找到王子。

1. A/B测试极易被错误使用

正式进行A/B测试之前,团队应该确保测试版本既不会降低性能,也不会产生意料之外的结果。在必应Bing,除了一些低风险的bug修复和硬件类操作系统升级,其余80%的改动会首先以控制变量的实验方式进行。

大部分的科学测试的基础框架都需要以下几项:记录工具(记录例如用户点击、鼠标悬停和事件时间等数据)、数据流和专业的数据科学家。随着A/B测试的发展和普及,网络上出现了一些针对A/B测试的第三方工具和服务。但如果企业有大规模测试的需求,第三方工具和服务很难胜任。稳定的基础框架能降低每次的实验成本,并提高实验结果可靠性。相反,如果基础框架缺失,企业测试的成本会居高不下,从而导致决策者不愿进一步投入,或进行更多试验。

微软的A/B测试基础架构就是一个优秀范例:Microsoft的分析实验团队有80多人,每天可以实行数以百计的产品在线对照试验(包括Bing, Cortana, Exchange, MSN, Office, Skype, Windows和Xbox等各种产品)。每次测试会有数十万至千万用户参与试用新改动,团队对测试结果进行严密的统计分析,并自动生成记分板,一一检查几百到上千个指标后,标记那些成效显著的改动。(当然如果你的企业规模较小,或对实验依赖度较低,实验团队投入可以降低)

3. 三种企业常见的实验团队人员结构:

1.集中型(Centralized model)

集中型结构意味着会有一组数据科学家为整个公司服务。这种结构的优点是,实验组人员可以持续关注长期项目,比如设计更好的实验工具和开发更先进的统计算法。但一大缺点是,一个实验组在服务所有产品组时,会对实验任务有不同的优先级,这可能导致各组之间资源和成本分配的冲突。另一个问题是,当数据科学家着手商业项目时,可能会因为缺乏专业知识和商业经验而难以将实验结果关联起来,更难看到结果背后的关键点。除此以外,数据科学家的身份可能缺乏影响力,无法说服决策层相信实验结果或者为技术投资。

2.分离型(Decentralized model)

分离型结构是企业为不同的业务部门配置数据科学家。这种的优点是,数据科学家可以成为其负责业务领域的专家。但缺点也很明显:对于员工而言,只为一个业务部门工作,数据科学家未来的职业道路并不明朗,同时也会缺乏同事的反馈和指导。而对于实验而言,只针对单个部门的实验可能不足以证明改动提案的合理性。

3.卫星型(Center-of-excellence model)

卫星型是让一些数据科学家成为团队,集中工作,剩余的数据科学家分散在不同的业务部门(微软采用的结构)。团队中心主要负责对照实验的设计、执行和结果分析。有了团队统一为公司构建的实验平台和实验工具,企业可以显著降低A/B测试所需的时间和资源。除此以外,团队还能基于优秀实验开设课程,举办Lab和会议,在全公司范围推广。卫星型结构的主要的缺点是,中心团队和产品团队的责任划分可能并不明晰,比如当需要增加测试数量时,哪个团队应为招聘更多的数据科学家来买单呢?

实验团队结构的好坏不是绝对的非黑即白。小公司一般会使用第三方服务,或者从集中型结构起步。待公司发展壮大后,转向其他结构。对于拥有多个业务组的大公司,那些高度依赖测试的业务组管理层,会在企业统一规划前实行测试,那么分离型结构就较为适用这种情况。如果在线实验是公司决策环节中的不可或缺的一环,可以通过卫星型结构的中心团队先构建实验范例,制定实验标准,然后再将其推行至各个业务部门。

如果你或者你的团队想接受系统科学的A/B测试企业级培训,那么千万别错过MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景,让学员在两个月的时间里,使用百万量级原始数据,搭建完整的A/B测试流程。

在过去开办的两期《训练营》中,我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景,都能通过这门课程,打开盛行“测试文化”的互联网高科技公司的大门!

以下为往期学员的战绩榜:

《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

今天,MarTechApe《A/B测试企业级实战训练营》正式开启第3期报名!
每一期训练营,我们只招收20名学生。先到先得,遵循阶梯价位,优惠逐额递减,越早报名越优惠!

  • 真枪实弹的A/B测试项目实操,百万量级真实数据+五大应用案例,从零学会A/B测试的里里外外!

  • 为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目,让你在面试时可以自信展示自己亲自做的案例,成功拿下offer!

  • 从0到100真实操作A/B测试项目的全套流程:数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示

  • 经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程,以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法!

  • 深度学习A/B测试实战中常见的测试陷阱及避免方法。

  • 牢固掌握公司里A/B测试项目中的实际SQL与Python应用,为A/B测试搭建数据库、清理数据、创建数据集。

  • 学会用Python自动化实现A/B测试,为你的老板提高100%的工作效率!

  • 接受系统的统计训练,打下坚实牢固的统计基础,彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。

  • 各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。对互联网科技公司的深度剖析和指标介绍,让你自如面对各类面试考验!

  • 专业的Bootcamp经历简历模版认证证书,可以晒到LinkedIn等求职网站,大大提高面试邀请率!

  • 福利升级:训练营以往只内推成功从训练营中毕业的学生。但在疫情期间,所有A/B测试实战训练营学员,均可获得全职或实习岗位的内推机会!

Emma老师

  • 美国知名电商Wayfair高级商业分析专家

  • 拥有多年电商A/B测试实战经验,及新人教授经验

  • 精通Advanced SQL, Python等数据分析工具

  • 设计推出的A/B测试,为公司带来上千万美元的收入

Emma老师对学员知无不言,有问必答!无论是面试中遇到的问题,还是工作中遇到的困惑。

  • 整个Bootcamp历时8周,每周3小时课程,共计24小时课时。

  • 周末线上实时授课,课后完成老师布置的作业,助教团队在班级群内随时答疑,直播录像永久回放。

  • 五大课程模块:

    • A/B测试商业训练(案例、变量设计、测试计划)

    • A/B测试数据技能训练(数据源概况、SQL数据库建立、Python自动化分析)

    • A/B测试实验设计训练(A/B测试 vs 准实验、实验步骤、真实商业环境中的实验挑战)

    • A/B测试统计训练(统计分析、深度解析)

    • A/B测试面试训练

  • 课程内容涵盖了A/B测试在各大互联网科技公司中的完整工作流程:

    • A/B测试统计基础与应用场景

    • A/B测试实验设计

    • A/B测试假设检验、变量选择、流量计算与实验周期计算

    • A/B测试各类应用场景中的实验变体与前后测实战分析

    • 用SQL与Python完成A/B测试项目实战

    • A/B测试结果解读与高阶统计

    • 结果展示

  • 每位学员将有一套亲自做的A/B测试成果作品

  • 每位学员获得A/B测试面试真题解题辅导

  • 结课后,每位学员获得提升简历的Industry Project Experience完美描述,所有学员获得内推机会!

1. A/B测试商业训练

  • 了解A/B测试在顶流科技公司中的各类应用场景

  • 了解A/B测试适用的商业问题与它的局限

  • 了解科技公司产品团队如何使用A/B测试

  • 面对商业问题,如何设计有效的假设?

  • 如何制定A/B测试的实验计划与执行框架?

2. A/B测试数据技能

  • 搭建一个真实的A/B测试实验数据库

  • 了解A/B测试中常面临的数据问题

  • 用SQL对数据进行清洗与转制,完成样本选取、组别分配、变量选取等实验步骤,为A/B测试做好数据准备

  • 用Python搭建A/B测试分析流程

学员在项目中重点使用SQL与Python,全方位了解A/B测试中涉及的数据库搭建、样本选取、实验组与测试组分配、变量选取等数据分析步骤。并且充分掌握用Python搭建A/B测试结果分析流程,实现A/B测试自动化,对真实工作中的A/B测试分析了如指掌。简而言之,项目后,你不仅将牢固掌握SQL与Python等最热门的数据分析软件,还将成为真正的A/B测试技术流,完全掌握A/B测试这项数据分析工作中最重要的技能。

3. A/B测试实验设计

  • 充分了解A/B测试的实验步骤

  • 设立零假设与被择假设

  • 确认实验指标,设计实验变量

  • 根据指标类型确认统计检验方法

  • 估算样本量,确定实验周期

  • 置信区间与统计功效

  • A/B测试中的各类偏差

  • 样本量不够或其他实验条件不满足时的实验设计

  • 了解准实验与A/B测试的应用区别

  • 为项目案例设计A/B测试实验

学员在项目中将透彻学习实验方法与实验设计。在这个环节中,将研究如何制定实验方案,以提高实验效率,缩小随机误差的影响,并使实验结果能有效地进行统计分析。学习在工作场景中如何用A/B测试等实验来提高用户激活/活跃/留存等关键的产品指标,提升产品功能表现,真正理解A/B测试的商业价值与业务地位。

4. A/B测试统计训练

  • 抽样技术

  • 样本量与统计分布

  • 统计测试的不同类型和指标(T测试, Z测试, Z分数, P值)

  • 统计显著性

  • 统计功效

  • 置信区间

  • 假设检验的两类错误等

学员在项目中将系统学习数理统计方法,为各类工作实战中的实验方法打下牢固的理论基础。学员所学习到的统计并不只适用于A/B测试,其实是所有数据分析方法的从基础到高阶的统计方法。只有为自己增添坚实的统计背景才能在各类分析方法中游刃有余。

5. A/B测试面试训练
在每周的课程后,所有学员将获得A/B测试面试训练。老师将对各大互联网、科技公司A/B测试面试题给出解题步骤示范与详细解析。确保课堂所学知识可以灵活应用到各类面试场景,助你自信面对A/B测试的所有面试考验!

上完Bootcamp,有哪些作品可以展示呢?

从数据库搭建、样本选取、实验组与测试组分配、变量选取、实验设计,到实验结果深度分析与PPT展示,学员的精致项目报告就是他们最好的训练营成果,这一份拿的出手的高品质项目,无论是LinkedIn还是面试展示,都会是脱颖而出的最佳帮手!

部分学员作品展示:

长按二维码,添加小助手为好友,回复“AB”,即可报名《A/B测试实战训练营》:

小助手(微信ID:yvonne91_wsn)

熟悉我们的老用户,应该知道我们一直都是实行阶梯价格、优惠递减的,这次也不例外:先到先得、越早报名越优惠(原价$1999美元)。以下价格单位为美元:

  • 第1名~第2名:999美元(优惠$1000)

  • 第3名~第6名:1099美元(优惠$900)

  • 第7名~第10名:1299美元(优惠$700)

  • 第11名~第14名:1399美元(优惠$600)

  • 第15名~第16名:1499美元(优惠$500)

  • 第17名~第18名:1699美元(优惠$300)

  • 第19名:1899美元(优惠$100)

  • 第20名:1999美元(原价)

你是否能在更好的公司做更优秀的自己?投资自己,全方位提升能力,为自己增添被验证有效的宝藏项目经历!赶快报名吧!