MarTechApe

View Original

面试中,6个关于A/B测试的灵魂拷问

原创:MarTechApe

你对A/B测试了解多少?如果你是一个优化师、营销数据分析师、产品分析师,你可能对此很熟悉。但是A/B 测试最吸引我的地方就是:即使你认为你很了解它,但是结果总是会让你大吃一惊。

每一个A/B测试案例都有自己的不同特征。对于A/B测试抱有疑问不仅仅可以让你更好地了解它,而且还可以让你避免犯无用的错。要做到这一点你需要知道关于A/B测试的一些重要的问题。

本文讲述了关于A/B测试的一些关键问题,包括如何提高A/B测试的成功率,A/B测试对收入的影响,A/B测试的假阳性(False Positive),在流量低的网站运行A/B测试,A/B测试的成本,A/B测试的运行时间。

▲Airbnb首席执行官布莱恩·切斯基(Brian Chesky)居家隔离

1. A/B测试的成功率是多少?

一个典型的CRO(conversion rate optimization)循环是这样的:

公司的管理层听说优化转化率可以增加公司收益,因此雇佣了一个机构或者是让内部员工帮助公司进行CRO,来完成转化率提升的项目。该项目的成员夜以继日地分析网站,确定问题,并且提出A/B测试的设计思路,然后工程师实施并改进A/B测试,加上反复的质量筛查和修改错误,最终令人振奋的结果出来了,这个新设计不能帮公司提高转化率!于是他们回到当初设计的蓝图本旁边,希望下一次测试可以提高转化率。往复循环……

什么是A/B测试的成功率?

行业平均值是12%-15%(据Optimizely报告,在他们网站上实施A/B测试的成功率是25%,似乎和其他平台的平均水平有所差异)。这就是为什么George Mavrommatis说:

“如果你的网站A/B测试的成功率大于25%,这意味着你要么是个天才,要么你的网站非常差,或许你应该换一种开发的方式可能会让你更快地达到目标。”这么努力地工作,只有12%的成功率?更甚的是,即使是一个成功的测试也不意味着收入会有大幅增长。

我们来看看CRO如何解决这些问题:

关注于CRO学习方面,如果你不能帮客户得到结果,那就专注于学习网站用户的行为并吸取教训。然而客户并不在意我们是否学习,他们付钱是为了更高的转化率。如果你不能帮助客户得到正向的结果,而只能从测试中学习用户行为的话,很有可能会被客户解雇。

另一种解决办法就是增加测试的速度,如果成功率是12%,我们就运行100个测试,希望得到好结果。但是加快测试速度通常会导致成功率下降,并且很有可能你会遗漏掉一些重要的结果。在每一个A/B测试中,你应该追踪所有的目标,组织你的测试结构并且确保假设都得到了印证。但是如果你需要同时追踪100个测试,这会是个很大的挑战。

2. 一个成功的A/B测试对收入有什么影响?

当你告诉客户转化率提高了25%,客户脑海中浮现的第一个想法就是公司的收入可以增长25%。但是转化率的提升必然会导致收入的提升吗?

结果是否定的。

页面的转化率不等于网站的转化率。每一个网页的转化率对网站的转化率有着不一样的影响。如果你是一个电商网站,那么你网站主页和产品分类页面对整个网页转化率的影响是不同的。这也意味着一个A/B测试结果的增长并不一定直接导致公司收入的增长。两者并不总是1:1的关系。

例如假设你在对一个网页进行分析,你发现你的产品页面有一些问题。于是你设计了一个新的产品界面希望解决这个问题,并且设计了一个实验,用总流量的20%来测试——新旧版本对比,结果显示新界面会带给30%的转化率提升。

由于该实验仅在产品页面上进行,这意味着测试仅优化了一小部分流量转化率(20%)——即测试运行时访问该页面的用户。另外80%的流量在测试运行时没有访问产品页面,因此并没有出现30%的提升。这就是为什么产品页面的30%提升并不是整个网站转化率的30%提升的原因。

为了了解你优化的页面对收入的影响,Khalid写了一篇关于页面对网站转化率影响的文章,并提出了以下两种方法:

  1. 计算一个特定页面的浏览量占该网站总浏览量的百分比。

  2. 用浏览量来决定页面的价值。

统计学上的显著性并不等于有效性。一旦数据达到95%的显著性水平,大多数人就会结束测试。显然这不是一个明智的选择。即使你的测试结果显示你达到了99%的显著性水平,这也并不意味着你可以停止测试了。因为数据具有波动性,最终它会趋近于平均值,这就是为什么你需要做以下几件事情:

  1. 提前确定测试需要的时间

  2. 如果测试时间少于两周,请延长到至少两周时间。

确定测试时长是为了达到需要的样本量,因为我们需要一个足够的样本来消除统计回归带来的误差。假设我们正在运行一个具有4个变量的测试——控制组 vs V1/V2/V3,你可能会在接下来的四周经历以下结果:

第一周:V2领先于其他版本

第二周:V2依旧领先

第三周:V2虽然领先但是显著性降低

第四周:V2不再领先,优势消失了

即使转化率显示有95%显著度的提升,样本量也达到条件,你依旧需要运行一个验证测试,使该组和其他的控制变量对立。Khalid写过一篇关于计算所需样本量的长篇文章,有兴趣的读者可以阅读一下(LINK)。

3. 对于变量组正在减弱的优势,如果才能避免False Positives?

A/B测试是一种对于优化转化率有效的方法,但是三思而后行总是明智的,没有精确的设计,很有可能产生误导性的结果。

例如,你的测试结果显示B组的转化率明显大于A组,但是当你实施了B组,收入并没有像预期一样提升。为什么呢?原因就是我们提到的False Positive

“当零假设为真却被拒绝,则属于第一类错误。统计结果可能告诉你B组表现比A组更好,但是该结论有可能属于第一类错误。而且在每一个测试中,都有可能出现该类错误。”

既然你已经知道什么是第一类错误了,那么下一问题是我们如何才能避免,对于初学者来说,有几件事情你应该记住:

避免变量过多

Upworthy是一家增长势头很猛的新媒体网站,以内容输出为主。他们对文章进行25个标题的测试,结果是有回报的,但是是否你也必须遵循他们的模式呢?

答案是未必。即使你们都属于同一家领域,照搬其他公司的成功模式未必一定适合你,因为每一个公司都是不一样的。

回归正题,对于每一个A/B测试而言,你都会有5%左右的几率得到一个错误的结论,这就是为什么显著度是95%,而不是100%。所以从数学的角度,如果你测试了10个变量,那么你得到一个错误结论的几率为50%(5%的错误概率 * 10个变量),概率还是挺大的。

下面这个图表表示得到错误结论的可能性随着变量增加的变化:

除此之外,测试多个变量意味着你还需要测试变量之间的交叉影响,以此得知最优组合,这会使得到错误假设的概率进一步提升。

不要过早停止测试

A/B测试需要运行一定的时间才能使结果比较可靠,多年来行业的标准一般都是95%的显著度。不过有时候测试很快就达到显著度,每当它发生,就会诱导我们结束测试。但是有经验的营销人员知道,测试不能过早停止也不能过晚结束,需要在这中间取到一个合适的停止时间。每当你决定停止测试前,你需要考虑几下几点:

  1. 提前计算样本量,并确保至少收集到该数量

  2. 确保你的样本有足够的代表性,最少运行两周时间来避免季节性因素的影响

  3. 不同测试组尽量避免互相影响

  4. 当上述情况满足,只看达到95%的结果

重新运行测试,验证测试结果

不要完全相信一个数字,有可能你的测试告诉你转化率会有40%的提升,但是当你真正部署并运行后,你会发现转化率并没有40%的增长。为什么?

影响测试结果的因素千千万万,很有可能你的结果会受到影响。所以在真正部署一个新的变量前,确保我们将其和控制组重新比较,以得到可靠的结果,虽然这会降低测试的运行效率,而且我们也不会对所有的测试都重新验证,但是它可以很大程度上帮助我们把错误结果发生的几率降到最低。

4. 什么会削弱A/B测试的数据?

拥有可接受的置信水平、测试持续时间和适当的样本量并不等于有效性。你的A/B测试仍然可能被所谓的有效性威胁所扭曲。什么是有效性威胁?与某些不可控或“鲜为人知”的因素相关的风险,可能导致结果不准确,并导致A/B测试输出不准确。

有相当多的因素会对你的A /B测试结果的有效性构成威胁。这些威胁可以归类如下:

  • 闪烁效应(Flicker effect)

  • 历史影响

  • 工具影响

  • 选择影响

闪烁效应:  假如一个用户被分到了A/B实验的实验组,但是在实验组的页面被加载之前,用户的屏幕上却闪现了控制组的页面。

你可能会问,这怎么会影响你的测试结果呢?用户在访问您正在测试的页面时,首先看到控制组的页面设计时,可能会对该站点产生怀疑并决定离开。

想想看,假设你打算在某个电子商务网站购买某个产品,然后你看到页面上的设计突然发生了变化,你会不会怀疑有人伪造了他们的页面并试图欺骗你?

如果你使用前端开发运行测试(大多数A/B实验都是这样的),那么你能做的事情就很少了。使用前端实验,可以最小化闪烁效果,但不能完全消除它。解决闪烁效应的一种方法是使用更复杂的服务器端进行测试

历史影响: 当一些外部因素影响你的测试数据时,就会出现这种类型的有效性威胁。这可能是季节性的变化,在你设置了A/B测试进行营销活动,可能是负面的社会媒体评论会使人们对你的网站产生偏见,等等。

假设你在运行测试时启动了一个营销活动。这很有可能导致你的网站流量出现不寻常的峰值,被营销活动吸引到网站的访问者与普通的访问者不同,所以他们可能有不同的需求或浏览行为。考虑到这种流量只是暂时的,这意味着你的测试结果可能会完全改变。可能会导致一个版本胜出,而如果使用常规流量的话,则可能会在测试中输掉。

当运行A/B测试时,以下是你可以避免外部因素影响的方法:

  • 注意任何可能影响数据的外部因素。

  • 通知组织中的每个人你正在运行一个测试。

  • 使用谷歌分析来跟踪流量的变化。

工具影响: 测试工具或代码实现导致有缺陷的数据,这可能是导致大多数测试结果偏斜的最常见的问题。

当你使用的工具有缺陷或代码不正确时,你希望追踪并衡量的一些变量将不会被正确记录

假设你正在测试三种变体——A/B/C——而版本C的代码没有正确设置,这意味着你的工具可能无法将一些变量的数据(例如“产品页面浏览量”页面浏览量数据)发送到你的工具,你知道这意味着什么对吗?版本C很可能会输,但如果不是因为错误的代码,版本C则可能会赢。

选择影响: 当我们错误地假设我们在测试中使用的样本代表总流量时,就会发生这种情况。样本偏差是导致有效性威胁的常见原因之一。

例如,假设你将Facebook广告中的促销流量发送到一个正在运行测试的页面。测试结果显示转换次数增加。然后,你把推广流量看作是你的总流量,把结果应用到你的网站上,那么就会导致错误的结果。

5. A/B测试项目的成本是多少?

当然,A/B测试项目的费用因公司而异。但一个由营销团队、开发团队和软件组成的典型项目的价格接近50万美元。

对许多公司来说,这是一项很高的成本。

然而,当涉及到A/B测试项目时,它并不总是与成本有关,而是与ROI有关

我是说,如果公司能产生2000万美元的收入,而A/B测试项目能够产生10%的销售增长,也就是200万的增长,这值得投资吗?正如你所看到的,一个公司创造的收入越多,投资回报率就越高。

6. 我能在低流量网站上进行A/B测试吗?

多年来,这个问题一直是不同优化论者争论的焦点。但是要回答这个问题,首先需要知道运行一个正确的A/B测试需要多少流量。

根据A/B Tasty的说法,你需要在每个版本中达到至少5000个独立访客,以及通过版本对每个目标进行100次转换。意思是,低于这个标准就不能做A/B测试。

在Khalid谈到这个问题的时候,他是这样说的: “在过去,我们依赖于每一个版本的100个转换作为一个整体。但我们很快发现,那些产生200次转化的网站并不能从运行转化率优化程序中看到真正的价值。现在,我们需要一个月至少500到700转换。那些月转化超过2000的公司才能看到CRO最大的影响。”

A/B测试的结果通过统计显著性来验证——一种证明实验结果可靠的数学方法。例如,假设你运行A/B测试,你的显著性水平是50%,这意味着你有50%的信心观察到的结果是真实的而不是偶然的,如此一来根本没必要去进行测试,因为你凭空猜测的正确率也是50%。在大多数情况下,大多数优化器会一直运行测试直到达到95%的统计显著性。

所以,如果你的网站流量太少,它将需要时间(通常是几个月)来获得95%的显著性。这就是为什么优化器不喜欢在低流量的网站上运行测试的主要原因,没有人有耐心等待5个月甚至更多时间,在一件正常情况下两周就能完成的事情上。

话虽如此,问题仍然存在:是否可能在低流量站点上运行测试呢?答案是肯定的。流量小的网站仍然可以做A/B测试来提高转化率。你只需要有一个战术测试计划,你可以这样做:

关注微小的转化,而不是宏观的转化

对于低流量的网站,你可以运行一个A/B测试,目的是跟踪微小转化(用户为达到目标而采取的每一步小行动),而不是宏观转换(浏览网站的最终目标)。

两者的区别在于宏观观察侧重于用户最终目标,而微观观察侧重于用户每一个小的行动。

例如,在电子商务网站中,宏观目标可能是进行购买,而微小转化可能是向购物车中添加一件商品。下面是一些你可能想要跟踪的微转换例子:

  • 产品页面浏览量

  • 订阅量

  • 下载电子书

  • 查看SaaS公司的定价页面

  • 观看一个SaaS公司的演示视频

  • 在社交媒体上分享内容

关注微转换将帮助您全面理解更广泛的转换。了解你的访问者在转换过程中使用的路径,可以让你更容易地知道在哪里优化你的网站。这样,就可以将测试结果基于更有可能生成更多转换的版本。

实现彻底的重新实验,而不是增量测试

一次测试一个单一的网站元素本身是很费时间的,如果在一个低流量的网站上进行测试,可能会花费很长时间来获得决定性的结果。

这就是为什么你应该忘记增量测试而立即进行新的设计测试的原因。通过这种方式,你将能够迅速达到想要的结果,并做出一个明智的决定。

尽管你可以从一个新的设计测试中迅速得到可行的结果,但是从中学习却比较困难。意思是说,你将无法分辨哪些元素帮助你提高了转化率,哪些元素效率较低。是增加了信任信号吗?是新的价值主张最能引起用户的共鸣吗?还是别的?

但是还是有办法克服这一缺点的。你可以为同一页面提供两个新的不同主题并同时测试它们,而不是测试多个单一元素。

测试一些可以影响客户决策的东西

运行此测试的最佳方式是首先进行广泛的用户研究(可用性测试、客户访谈、投票),以便了解客户的驱动因素和关注点。在完成站点的最终目标之前,了解他们的关注点和他们考虑的因素可以帮助你确定测试哪些内容,哪些内容不应该浪费时间。

知道什么对你的客户很重要不仅可以帮助你弄清楚要测试什么,还可以帮助你在短时间内获得统计上显著的结果。

忘记多元测试(MVT)

运行多元测试的一个先决条件是高流量。尽管我们的大多数客户在一个月内都有数千万的访问量,但我们已经很多年没有进行过多元测试了。记住,测试的变量越多,获得重要结果所需要的时间就越长。最好把MVT测试放在一边!

结论

今天,A/B测试的想法不再新颖,不同的行业还是从在做出某种决定之前进行的A/B测试中得到了价值。但和A/B测试一样常见的是,很多的市场营销人员可能很难给出上述问题的正确答案。

想要从事A/B测试相关工作,实操经验尤为重要。然而运行A/B测试需要操作大量级数据,初学者无从下手,也缺乏机会。想要上手企业级项目,应用标准化实验分析方法,在职场道路上飞驰吗?MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景,让学员在两个月的时间里,使用百万量级原始数据,搭建完整的A/B测试流程!

在过去开办的三期《训练营》中,我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景,都能通过这门课程,打开盛行“测试文化”的互联网高科技公司的大门!

以下为往期学员的战绩榜:

▲《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

🔥目前,MarTechApe《A/B测试企业级实战训练营》正式火热报名第4期!🔥
每一期训练营,我们只招收20名学生。

👇点击下方按钮,了解项目详情!👇