如何通过分配流量大大提高A/B测试效率？

原创：MarTechApe

A/B测试对很多人来说并不陌生，但很多时候我们只浅显地知道A/B测试是通过比较不同版本的网页/邮件/或其他营销手法并衡量不同版本给转化率带来的影响，而不知道要如何高效地完成一个A/B测试。

这篇文章主要提到一个与提高A/B测试效率息息相关的概念：测试曝光（Test Exposure）。让我们通过一个例子来了解这个概念并理解为什么它可以帮助提高测试效率。

假设有一个卖家具的网站，以下是用户从进入网站到结账的整个流程：

在这个图中，X 表示来到网站的所有用户的总人数（无论他们首先进入的是哪一个页面）；Y 表示进入到购物车页面的用户；Z 表示点击‘check out’买单并进入买单流程的用户。

让我们分别给X, Y, Z 赋值：

假设 X = 12000/天，平均每天有12000名用户进入网页

Y = 1200/天，有10%进入网页的用户将商品加入到购物车并进入到购物车页面

Z = 400/天，3.33%进入网页的用户最终购买商品，同时也可以理解为，33.33%进入到购物车页面的用户最终购买商品。

假设购物车页面如下：

首先我们提出假设：

根据人们的阅读习惯，用户倾向于期待将他们带到下一步的按钮在右侧，而将他们带回上一步的按钮在左侧。因此，当“checkout”结账按钮在左侧时，很多人可能不会一眼就看到这个按钮而放弃结账。所以，通过将上图中“checkout“的按钮从左下方移到右侧，我们可以将网站的转化率提高10%。

改变之后的购物车页面如下：

接下来，我们要决定在什么时候将用户分别分入实验组（vairant group）和对照组（control group），也就是如何分流（split traffic）的问题。我们有两个选择：

第一，在用户刚进入网页时分流；

第二，在用户进入到购物车页面时分流

问题来了，这有什么不同？

1. 估计样本量

为了回答上一个问题，我们需要预估一下所需样本量的大小。为此我们将使用Evan Miller的A/B测试样本量计算器，并将显著性阈值(significance threshold)设为0.05，功效(power)设为80％

方法1所需的样本量

方法1的图代表着这次试验的对照组和实验组分别需要46,224位用户（实验一共需要92,448位进入该网站的独立访客）。

方法2所需的样本量

方法2的图代表着对照组和实验组分别仅需3161个用户，也就是说一共仅需要6,322个进入到购物车页面的用户。假设访问网站的所有用户中有10％最终出现在购物车页面中，那么如果要使6,322个用户进入到购物车页面，我们则需要63,220个用户进入该网站。

2. 比较两个选项

方法1：当新用户登陆任何一个网站时，分流流量需要92,448个用户。

方法2：当新用户进入购物车页面（A/B测试的位置）时，分配流量需要63,220个用户。

我们可以明显的看出方法1需要46.23％更多的用户来进行实验。在这个情况下选择方法2的分流方法能更快地检测到相同的结果，从而加快了测试速度。

但是为什么呢？为什么在其他所有条件保持不变时，只通过改变用户分流的方法就大大减少了测试参与者的数量?

去理解这个实验逻辑，我们必须先绘制出用户流程图然后把登录我们网站的用户分为“转化用户(convert users)”和“非转化用户 (non-convert use)”。

方法1

*注：登录网站后的用户将被分为实验组(variant group)以及对照组（control group)

可以通过上图看出，非转换用户分为了两种：其中一批用户进入了结账流程，但是另一批用户却没有。因此我们需要更多的样本才能完成这个测试。Evan Miller把这种现象称为无谓损失（Deadweight loss）。

方法2

*注：在用户进入结帐流程后才将他们分为对照组(variant)以及实验组(control)

反之，在方法2的分流结果中并不存在任何无谓损失。因此，我们只需要更少的样本就能完成这个测试。

显而易见的是，方法1和方法2的无谓损失取决于以下两点：

P 1：用户从进入网站到成功购买的转化率。在我们的例子中为3.33%。此数值越大，方法2和方法1彼此相似的程度就越大。

P 2：用户从购物车页面到成功购买的转化率。在我们的例子中为33.33%。此数值越大，方法1和方法2彼此相似的程度就越小。

通过使用方法2来设计A/B测试进行分流，我们可以减少整个实验所需的参与者数量，从而提高了实验效率。整个测试的效率增益的计算如下：E =（1-P1）/（1-P2），也就是说实验效率提高了1.4倍！

3. A/B测试曝光

测试曝光是指用户在使用一个产品的整个旅程中适当的被分为实验组和对照组的概念。一个正确的曝光时机是指用户看到A/B测试设计更改推出的时候。

4. 总结

1. 要合理定义A/B测试中的曝光点

2. 指出我们想要观测的KPI在测试曝光点之后的一个基础值

3. 根据测试假设，明确要观测的KPI的提升

4. 根据指标的基础值以及指标的提升来估计这次测试的样本量

5. 实施测试并在测试中将用户分类为对照组以及实验组

想要上手企业级项目，应用测试曝光，提高A/B测试效率吗？MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景，让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程！

在过去开办的三期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！

以下为往期学员的战绩榜：

▲《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

🔥目前，MarTechApe《A/B测试企业级实战训练营》正式火热报名第4期！🔥
每一期训练营，我们只招收20名学生。

👇点击下方按钮，了解项目详情！👇

A/B测试企业级实战训练营