面试中，6个关于A/B测试的灵魂拷问

原创：MarTechApe

你对A/B测试了解多少？如果你是一个优化师、营销数据分析师、产品分析师，你可能对此很熟悉。但是A/B 测试最吸引我的地方就是：即使你认为你很了解它，但是结果总是会让你大吃一惊。

每一个A/B测试案例都有自己的不同特征。对于A/B测试抱有疑问不仅仅可以让你更好地了解它，而且还可以让你避免犯无用的错。要做到这一点你需要知道关于A/B测试的一些重要的问题。

本文讲述了关于A/B测试的一些关键问题，包括如何提高A/B测试的成功率，A/B测试对收入的影响，A/B测试的假阳性（False Positive），在流量低的网站运行A/B测试，A/B测试的成本，A/B测试的运行时间。

1. A/B测试的成功率是多少？

一个典型的CRO（conversion rate optimization）循环是这样的：

公司的管理层听说优化转化率可以增加公司收益，因此雇佣了一个机构或者是让内部员工帮助公司进行CRO，来完成转化率提升的项目。该项目的成员夜以继日地分析网站，确定问题，并且提出A/B测试的设计思路，然后工程师实施并改进A/B测试，加上反复的质量筛查和修改错误，最终令人振奋的结果出来了，这个新设计不能帮公司提高转化率！于是他们回到当初设计的蓝图本旁边，希望下一次测试可以提高转化率。往复循环……

什么是A/B测试的成功率？

行业平均值是12%-15%（据Optimizely报告，在他们网站上实施A/B测试的成功率是25%，似乎和其他平台的平均水平有所差异）。这就是为什么George Mavrommatis说：

“如果你的网站A/B测试的成功率大于25%，这意味着你要么是个天才，要么你的网站非常差，或许你应该换一种开发的方式可能会让你更快地达到目标。”这么努力地工作，只有12%的成功率？更甚的是，即使是一个成功的测试也不意味着收入会有大幅增长。

我们来看看CRO如何解决这些问题：

关注于CRO学习方面，如果你不能帮客户得到结果，那就专注于学习网站用户的行为并吸取教训。然而客户并不在意我们是否学习，他们付钱是为了更高的转化率。如果你不能帮助客户得到正向的结果，而只能从测试中学习用户行为的话，很有可能会被客户解雇。

另一种解决办法就是增加测试的速度，如果成功率是12%，我们就运行100个测试，希望得到好结果。但是加快测试速度通常会导致成功率下降，并且很有可能你会遗漏掉一些重要的结果。在每一个A/B测试中，你应该追踪所有的目标，组织你的测试结构并且确保假设都得到了印证。但是如果你需要同时追踪100个测试，这会是个很大的挑战。

2. 一个成功的A/B测试对收入有什么影响？

当你告诉客户转化率提高了25%，客户脑海中浮现的第一个想法就是公司的收入可以增长25%。但是转化率的提升必然会导致收入的提升吗？

结果是否定的。

页面的转化率不等于网站的转化率。每一个网页的转化率对网站的转化率有着不一样的影响。如果你是一个电商网站，那么你网站主页和产品分类页面对整个网页转化率的影响是不同的。这也意味着一个A/B测试结果的增长并不一定直接导致公司收入的增长。两者并不总是1:1的关系。

例如假设你在对一个网页进行分析，你发现你的产品页面有一些问题。于是你设计了一个新的产品界面希望解决这个问题，并且设计了一个实验，用总流量的20%来测试——新旧版本对比，结果显示新界面会带给30%的转化率提升。

由于该实验仅在产品页面上进行，这意味着测试仅优化了一小部分流量转化率（20%）——即测试运行时访问该页面的用户。另外80%的流量在测试运行时没有访问产品页面，因此并没有出现30%的提升。这就是为什么产品页面的30%提升并不是整个网站转化率的30%提升的原因。

为了了解你优化的页面对收入的影响，Khalid写了一篇关于页面对网站转化率影响的文章，并提出了以下两种方法:

计算一个特定页面的浏览量占该网站总浏览量的百分比。
用浏览量来决定页面的价值。

统计学上的显著性并不等于有效性。一旦数据达到95%的显著性水平，大多数人就会结束测试。显然这不是一个明智的选择。即使你的测试结果显示你达到了99%的显著性水平，这也并不意味着你可以停止测试了。因为数据具有波动性，最终它会趋近于平均值，这就是为什么你需要做以下几件事情：

提前确定测试需要的时间
如果测试时间少于两周，请延长到至少两周时间。

确定测试时长是为了达到需要的样本量，因为我们需要一个足够的样本来消除统计回归带来的误差。假设我们正在运行一个具有4个变量的测试——控制组 vs V1/V2/V3，你可能会在接下来的四周经历以下结果：

第一周：V2领先于其他版本

第二周：V2依旧领先

第三周：V2虽然领先但是显著性降低

第四周：V2不再领先，优势消失了

即使转化率显示有95%显著度的提升，样本量也达到条件，你依旧需要运行一个验证测试，使该组和其他的控制变量对立。Khalid写过一篇关于计算所需样本量的长篇文章，有兴趣的读者可以阅读一下（LINK）。

3. 对于变量组正在减弱的优势，如果才能避免False Positives？

A/B测试是一种对于优化转化率有效的方法，但是三思而后行总是明智的，没有精确的设计，很有可能产生误导性的结果。

例如，你的测试结果显示B组的转化率明显大于A组，但是当你实施了B组，收入并没有像预期一样提升。为什么呢？原因就是我们提到的False Positive。

“当零假设为真却被拒绝，则属于第一类错误。统计结果可能告诉你B组表现比A组更好，但是该结论有可能属于第一类错误。而且在每一个测试中，都有可能出现该类错误。”

既然你已经知道什么是第一类错误了，那么下一问题是我们如何才能避免，对于初学者来说，有几件事情你应该记住：

避免变量过多

Upworthy是一家增长势头很猛的新媒体网站，以内容输出为主。他们对文章进行25个标题的测试，结果是有回报的，但是是否你也必须遵循他们的模式呢？

答案是未必。即使你们都属于同一家领域，照搬其他公司的成功模式未必一定适合你，因为每一个公司都是不一样的。

回归正题，对于每一个A/B测试而言，你都会有5%左右的几率得到一个错误的结论，这就是为什么显著度是95%，而不是100%。所以从数学的角度，如果你测试了10个变量，那么你得到一个错误结论的几率为50%（5%的错误概率 * 10个变量），概率还是挺大的。

下面这个图表表示得到错误结论的可能性随着变量增加的变化：

除此之外，测试多个变量意味着你还需要测试变量之间的交叉影响，以此得知最优组合，这会使得到错误假设的概率进一步提升。

不要过早停止测试

A/B测试需要运行一定的时间才能使结果比较可靠，多年来行业的标准一般都是95%的显著度。不过有时候测试很快就达到显著度，每当它发生，就会诱导我们结束测试。但是有经验的营销人员知道，测试不能过早停止也不能过晚结束，需要在这中间取到一个合适的停止时间。每当你决定停止测试前，你需要考虑几下几点：

提前计算样本量，并确保至少收集到该数量
确保你的样本有足够的代表性，最少运行两周时间来避免季节性因素的影响
不同测试组尽量避免互相影响
当上述情况满足，只看达到95%的结果

重新运行测试，验证测试结果

不要完全相信一个数字，有可能你的测试告诉你转化率会有40%的提升，但是当你真正部署并运行后，你会发现转化率并没有40%的增长。为什么？

影响测试结果的因素千千万万，很有可能你的结果会受到影响。所以在真正部署一个新的变量前，确保我们将其和控制组重新比较，以得到可靠的结果，虽然这会降低测试的运行效率，而且我们也不会对所有的测试都重新验证，但是它可以很大程度上帮助我们把错误结果发生的几率降到最低。

4. 什么会削弱A/B测试的数据？

拥有可接受的置信水平、测试持续时间和适当的样本量并不等于有效性。你的A/B测试仍然可能被所谓的有效性威胁所扭曲。什么是有效性威胁？与某些不可控或“鲜为人知”的因素相关的风险，可能导致结果不准确，并导致A/B测试输出不准确。

有相当多的因素会对你的A /B测试结果的有效性构成威胁。这些威胁可以归类如下:

闪烁效应（Flicker effect）
历史影响
工具影响
选择影响

闪烁效应: 假如一个用户被分到了A/B实验的实验组，但是在实验组的页面被加载之前，用户的屏幕上却闪现了控制组的页面。

你可能会问，这怎么会影响你的测试结果呢?用户在访问您正在测试的页面时，首先看到控制组的页面设计时，可能会对该站点产生怀疑并决定离开。

想想看，假设你打算在某个电子商务网站购买某个产品，然后你看到页面上的设计突然发生了变化，你会不会怀疑有人伪造了他们的页面并试图欺骗你?

如果你使用前端开发运行测试（大多数A/B实验都是这样的），那么你能做的事情就很少了。使用前端实验，可以最小化闪烁效果，但不能完全消除它。解决闪烁效应的一种方法是使用更复杂的服务器端进行测试。

历史影响: 当一些外部因素影响你的测试数据时，就会出现这种类型的有效性威胁。这可能是季节性的变化，在你设置了A/B测试进行营销活动，可能是负面的社会媒体评论会使人们对你的网站产生偏见，等等。

假设你在运行测试时启动了一个营销活动。这很有可能导致你的网站流量出现不寻常的峰值，被营销活动吸引到网站的访问者与普通的访问者不同，所以他们可能有不同的需求或浏览行为。考虑到这种流量只是暂时的，这意味着你的测试结果可能会完全改变。可能会导致一个版本胜出，而如果使用常规流量的话，则可能会在测试中输掉。

当运行A/B测试时，以下是你可以避免外部因素影响的方法:

注意任何可能影响数据的外部因素。
通知组织中的每个人你正在运行一个测试。
使用谷歌分析来跟踪流量的变化。

工具影响: 测试工具或代码实现导致有缺陷的数据，这可能是导致大多数测试结果偏斜的最常见的问题。

当你使用的工具有缺陷或代码不正确时，你希望追踪并衡量的一些变量将不会被正确记录。

假设你正在测试三种变体——A/B/C——而版本C的代码没有正确设置，这意味着你的工具可能无法将一些变量的数据（例如“产品页面浏览量”页面浏览量数据)发送到你的工具，你知道这意味着什么对吗？版本C很可能会输，但如果不是因为错误的代码，版本C则可能会赢。

选择影响: 当我们错误地假设我们在测试中使用的样本代表总流量时，就会发生这种情况。样本偏差是导致有效性威胁的常见原因之一。

例如，假设你将Facebook广告中的促销流量发送到一个正在运行测试的页面。测试结果显示转换次数增加。然后，你把推广流量看作是你的总流量，把结果应用到你的网站上，那么就会导致错误的结果。

5. A/B测试项目的成本是多少？

当然，A/B测试项目的费用因公司而异。但一个由营销团队、开发团队和软件组成的典型项目的价格接近50万美元。

对许多公司来说，这是一项很高的成本。

然而，当涉及到A/B测试项目时，它并不总是与成本有关，而是与ROI有关。

我是说，如果公司能产生2000万美元的收入，而A/B测试项目能够产生10%的销售增长，也就是200万的增长，这值得投资吗？正如你所看到的，一个公司创造的收入越多，投资回报率就越高。

6. 我能在低流量网站上进行A/B测试吗？

多年来，这个问题一直是不同优化论者争论的焦点。但是要回答这个问题，首先需要知道运行一个正确的A/B测试需要多少流量。

根据A/B Tasty的说法，你需要在每个版本中达到至少5000个独立访客，以及通过版本对每个目标进行100次转换。意思是，低于这个标准就不能做A/B测试。

在Khalid谈到这个问题的时候，他是这样说的: “在过去，我们依赖于每一个版本的100个转换作为一个整体。但我们很快发现，那些产生200次转化的网站并不能从运行转化率优化程序中看到真正的价值。现在，我们需要一个月至少500到700转换。那些月转化超过2000的公司才能看到CRO最大的影响。”

A/B测试的结果通过统计显著性来验证——一种证明实验结果可靠的数学方法。例如，假设你运行A/B测试，你的显著性水平是50%，这意味着你有50%的信心观察到的结果是真实的而不是偶然的，如此一来根本没必要去进行测试，因为你凭空猜测的正确率也是50%。在大多数情况下，大多数优化器会一直运行测试直到达到95%的统计显著性。

所以，如果你的网站流量太少，它将需要时间(通常是几个月)来获得95%的显著性。这就是为什么优化器不喜欢在低流量的网站上运行测试的主要原因，没有人有耐心等待5个月甚至更多时间，在一件正常情况下两周就能完成的事情上。

话虽如此，问题仍然存在：是否可能在低流量站点上运行测试呢？答案是肯定的。流量小的网站仍然可以做A/B测试来提高转化率。你只需要有一个战术测试计划，你可以这样做:

关注微小的转化，而不是宏观的转化

对于低流量的网站，你可以运行一个A/B测试，目的是跟踪微小转化（用户为达到目标而采取的每一步小行动），而不是宏观转换（浏览网站的最终目标）。

两者的区别在于宏观观察侧重于用户最终目标，而微观观察侧重于用户每一个小的行动。

例如，在电子商务网站中，宏观目标可能是进行购买，而微小转化可能是向购物车中添加一件商品。下面是一些你可能想要跟踪的微转换例子:

产品页面浏览量
订阅量
下载电子书
查看SaaS公司的定价页面
观看一个SaaS公司的演示视频
在社交媒体上分享内容

关注微转换将帮助您全面理解更广泛的转换。了解你的访问者在转换过程中使用的路径，可以让你更容易地知道在哪里优化你的网站。这样，就可以将测试结果基于更有可能生成更多转换的版本。

实现彻底的重新实验，而不是增量测试

一次测试一个单一的网站元素本身是很费时间的，如果在一个低流量的网站上进行测试，可能会花费很长时间来获得决定性的结果。

这就是为什么你应该忘记增量测试而立即进行新的设计测试的原因。通过这种方式，你将能够迅速达到想要的结果，并做出一个明智的决定。

尽管你可以从一个新的设计测试中迅速得到可行的结果，但是从中学习却比较困难。意思是说，你将无法分辨哪些元素帮助你提高了转化率，哪些元素效率较低。是增加了信任信号吗？是新的价值主张最能引起用户的共鸣吗？还是别的？

但是还是有办法克服这一缺点的。你可以为同一页面提供两个新的不同主题并同时测试它们，而不是测试多个单一元素。

测试一些可以影响客户决策的东西

运行此测试的最佳方式是首先进行广泛的用户研究（可用性测试、客户访谈、投票），以便了解客户的驱动因素和关注点。在完成站点的最终目标之前，了解他们的关注点和他们考虑的因素可以帮助你确定测试哪些内容，哪些内容不应该浪费时间。

知道什么对你的客户很重要不仅可以帮助你弄清楚要测试什么，还可以帮助你在短时间内获得统计上显著的结果。

忘记多元测试（MVT）

运行多元测试的一个先决条件是高流量。尽管我们的大多数客户在一个月内都有数千万的访问量，但我们已经很多年没有进行过多元测试了。记住，测试的变量越多，获得重要结果所需要的时间就越长。最好把MVT测试放在一边！

结论

今天，A/B测试的想法不再新颖，不同的行业还是从在做出某种决定之前进行的A/B测试中得到了价值。但和A/B测试一样常见的是，很多的市场营销人员可能很难给出上述问题的正确答案。

想要从事A/B测试相关工作，实操经验尤为重要。然而运行A/B测试需要操作大量级数据，初学者无从下手，也缺乏机会。想要上手企业级项目，应用标准化实验分析方法，在职场道路上飞驰吗？MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景，让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程！

在过去开办的三期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！

以下为往期学员的战绩榜：

▲《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

🔥目前，MarTechApe《A/B测试企业级实战训练营》正式火热报名第4期！🔥
每一期训练营，我们只招收20名学生。

👇点击下方按钮，了解项目详情！👇

A/B测试企业级实战训练营