Waze（位智）是一款基于GPS的导航移动软件应用APP，于2013年被Google收购。本文作者为Waze的增长营销负责人。在Waze工作的7年内，她参与过各种各样的产品或功能开发：从全球已有超过1.3亿用户的Waze App，到Waze上线不久的拼车软件。在今天的文章里，她将为我们分享如何通过A/B Testing来实现Waze的增长。

在市场营销的不同领域里工作，我见证了营销如何影响了用户参与度，这也激发了我更深入地研究营销的绩效和增长：我学会了如何通过数据挖掘发现商业见解，如何设计相应的实验，以及如何分析和解释实验的结果。作为绩效营销团队(Performance Marketing) 的一员，我们团队旨在通过Waze已有的营销渠道和工具来提高整个Waze产品漏斗中的用户参与度。我们会直接接触到用户，最终引导用户完成消费。

除此以外，我们团队会设计实验来进一步验证营销活动的效果，实验的主要形式是“假设检验(Hypothesis testing)”，例如A/B测试。反复进行了数百个实验之后，我发现了一系列最佳实验，以及实施实验的具体步骤。今天就在这里与大家分享我的A/B测试经验。

第一步：探索数据关系，制定KPI

首先，你的任何A/B测试，其关注的KPI都应该与公司的KPI保持一致，从而确保你的测试实验关注在公司的重点业务上。

通过探索性数据分析（Exploratory Data Analysis）探寻数据中隐藏的关系

明确KPI，需要结合专业领域知识和EDA(探索性数据分析)的发现。我们需要对公司业务有深入了解，从而确定业务的核心驱动力是什么。我们能通过EDA发掘影响核心驱动力的因素，除此以外，EDA还能帮助我们识别产品漏斗中具有最大增长潜力的相关部分。

如果你没有EDA的相关经验，以下是基本步骤建议：

检查数据：对于每个数据集，首先了解数据的结构和内容。
清理数据：删除多余列，处理Null值。如有需要，可以添加列。
使用Group by和Aggregation函数计算描述性统计量，以探索值得关注的不同组数据差异。
进行可视化数据探索，发现潜在的不同组间的关系。

明确与重点业务和商业目标相关的可操作指标(Actionable Metrics)

你选择的指标应与产品黏性(参与度)相关，并且应该是长期留存量的有力指标。总之，KPI应该是可测量、可执行的指标。换言之，你应该能通过某些行动提升这个指标数值，并帮助公司达到商业目标。除此之外，对于这个指标，你还需要足量的过往数据，或者能轻松搜集其相关数据。同时，你也应该避免跨度时间长的数据迭代。例如：使用每日或每周的活跃用户数据，而不是每月活跃用户。因为使用每月活跃用户(MAU)数据，你需要等待更新一个月，才能对数据进行分析和操作。

专注用更少指标产生更大影响

对于KPI，你应该遵循“少即是多”的原则。让公司关注更少的指标，旨在整个公司产生更大的影响。在设计A/B测试时，你同样也应该遵照这个方法。试图同时优化更多指标，实验就会更加复杂：可能导致实验需要更长的测试时间，更多的设计和开发资源——也就是更多的钱。当你发现了数据中的隐藏关系，你可以对其进行深入分析，从而更准确地设计你的KPI，并在未来的实验设计和营销效果评估中使用它们。

第二步：确定实验的范围和目标

一旦你对数据的关系有了更全面的了解，明确了相关KPI，你就可开始制定实验的范围了。而任何实验的设计都应该从解答以下四个问题开始：

1. 这个实验有意义吗？

这是重中之重的问题，因为没有人想浪费时间、金钱和资源在一个结果无足轻重，不能影响业务、产品或营销策略的实验上。在真正开始实验之前，确保你与公司决策层的目标一致。

2. 实验的相关KPI可测量吗？如果可以，如何测量？

永远不要一拍脑门就开始一个实验。很多人会说：“我们来试试这个实验，看看会有什么结果。”这些人往往会意识到，他们想影响的指标实际上是无法测量的。这也是我们应该避免的。在开始实验之前，明确你想影响的数值或KPI，再确保它们是可以测量的，能应用于实验的。

3. 实验的影响可检测吗？

想要评估你的实验影响是否有意义，你需要足够大的样本量。而合适的样本量大小取决于很多因素，包括置信水平(confidence level)，统计功效(statistical power)，和效应值(effect size)等。在设计实验的第三步，我们会深入研究这些问题。但总而言之，探测产品漏斗更深处的效应，会需要更大的样本量。如果检测的效应在漏斗顶部，例如点击率、打开消息率等，其需要的样本量会相对较小。同样的，检测更小的效应需要更大的样本量。如果情况允许，你可以从过往的类似实验中学习，通过转换率确定实验基准，从而粗略估计你的实验执行所需的用户量。

4. 如果实验成功，能产生实际影响吗？

我们应该从商业角度考虑，如果实验成功，所产生的影响是否有商业意义。换言之，即使你的实验统计意义上提升了指标或KPI，但如果它只能影响少量用户，那这个实验可能并不值得推行。确保了你的实验能对以上四个问题回答“Yes”，就可以继续读下去——正式开始你的实验设计了。

第三步：定义、设计并实施你的实验

在验证了实验的必要性并设定好成功指标后，你就可以开始进行实验的设计了。在Waze多年的经验，我总结出一套实验记录的一套流程，主要由三部分组成：定义，设计和实施。

定义

这一部分主要提供实验的背景信息。它需要概述实验的需求，决策的制定方法以及专业术语。在这部分，你需要用到在第一步中进行的分析结果以及第二步中定义的基本原理，为实验提供背景信息和框架。

具体来说，在这一部分中我们需要回答以下问题：

这个实验是关于什么的？
此实验的商业目的是什么?
此实验的实验结果将会怎样影响商业决策？特别是在与该实验相关的部门中的决策变化——例如营销部门或者产品部门等等。
如何定义该实验中所使用的指标和术语？

非常重要的一点是确保所有与此实验相关的工作人员，利益相关者和普通读者都对试验中所使用的专业术语有相同的定义。如果实验的关键环节没有得到精确的定义，那么这很可能会影响到试验中的各个部分，使得最后得出完全不同的结论。例如，如果你实验的目的是将非积极用户转化为积极用户，则必须在实验计划中完整定义非积极用户的定义或积极用户与非积极用户的界定标准。因为其他读者很可能对你的目标受众或整个实验结果和成功与否存在完全不同的思考角度或理解误差。

实验设计

这部分是整个实验计划的核心内容。它包括目标人群的定义，事件几率大小，抽样方案，假设定义和所需的最小样本量。这部分需要确保包括以下内容：

目标人群

详细定义该实验的目标人群。

事件几率大小

这部分应该根据实验的目标人群和实验KPI进行定义。如第一步所述，你需要集中测试该实验中的可能变量。

抽样方案

这部分主要定义你对目标人群进行抽样的方式。我还建议在这部分中罗列出任何有可能出现的抽样偏差，这样可以确保你和实验的利益相关者了解这些抽样偏差可能对实验结果造成的潜在影响。

零假设与替代假设

这部分是实验定义的“心脏”，需要简洁清晰地描述你的零假设和替代假设。其中零假设应该是你的默认操作或现有状态。替代假设则是你正在测试的新理论或变化。你在实验中的目标是检测是否有足够的证据支撑来推翻零假设并更改为替代假设。

统计误差在实验中代表了假设检验中的关键部分。具体来说，我们可以看到两种不同的统计误差，分别是第一类错误和第二类错误。说明两种错误之间的区别时，一种常见的例子是将第一类错误视为将无辜者定罪的几率，而第二类错误是将有罪者定为无罪的几率。

在实验中，你希望减少无法拒绝零假设的几率，从而增加找到实验效果的机会（如果效果真实存在）。以上述例子为例，你可以想成零假设为一个人是无辜的，而替代假设为这个人有罪。如果该人确实是无辜的（零假设成立），那么则希望减少对该人定罪的可能性（零假设不成立）。

重要性级别和功耗统计

一般会通过显著性水平来定义你对第一类错误的接受程度，通常会设置为0.05或5%（95%置信区间）。也就是5%的可能性错误的将无辜者定罪。我们通过功耗统计来克服第二类错误。一个实验的功耗统计是指该实验检测出不同实验组之间区别的能力（如果此区别是真实存在的）。大部分情况下功效被设定为80%。

效应值

了解效应的大小是非常重要的，或者在既定的群体中怎样的结果是可以预期的。所以你需要一个效应值。在实验中你想要看到更大的变化，那么效应值也就越大，最小样本量也就越小。相反，如果你想看到更小的变化，那么效应值也相对越小，我们所需的最小样本量则越大。换而言之，如果你希望发现较大的差异，那么可以在测试中减少样本数量。反之，如果你希望找到细微差异，那么就需要在实验中增加更多的样本数量。

最小样本量

在定义完显著性水平，功效和效应值后，你可以通过运行功效分析来确定实验所需的最少样本数，以此来检测你所测试的变化是否有意义。

这种测试通常会使用p值来检测，这是假定零假设成立时观察结果所得到的概率。在显著性测试中使用p值时，必须明确指定显著性水平。如果p值小于显著性水平，则表示显著性检测的结果为“统计上显著”。这意味着零假设（没有差异性）被拒绝。

p <= alpha: 拒绝零假设
p > alpha: 无法拒绝零假设

实施与观察

现在你已经准备好执行你的实验了！

不要忘记在实验的每个环节进行质量检查，以确保数据正常和每个环节中的操作符合你的预期。另外，也需要确保在整个实验过程中严格监控。最重要的是，确保在实验开始执行后的几小时内密切观察，以尽快发现任何潜在问题。

第四步：分析并汇报实验结果

在完成A/B测试后，你需要分析并清楚地报告实验结果，不用为实验中的负面或非负面结果而感到害羞。通常情况下你需要测试多种假设后才能找到最有影响力的假设。但是，清晰地报告具有可操纵性的实验结果可以帮助你和所有利益相关者持续地为你的KPI带来正面影响。

分析实验结果的第一步是从验证开始，以确保你的测试正常运行。具体来说，你需要确认以下几点：

不同实验组的大小相同：即每个组的测试分配为50％-50％。如果你决定以不同方式划分实验组，则需要确保每个组的大小都与分配给它的百分比相对应。
实验组是随机抽取和分配的：确保检查实验组中的子群组，以确保没有潜在的偏差影响你的实验结果。例如，你可以按性别或国家/地区对实验组进行分组，以确保两个组的规模相对相似。

在确认实验的有效性后，你需要根据之前为实验定义的指标和KPI分析每个组的表现。如果其中一组的表现看起来似乎比另一组更好，但是你必须查看结果是否具显著，以便能够确定结果是随机事件还是可再现的结果（会对结果产生实际影响）。

怎样判断实验结果是否显著呢？如果你的变量之间的关系不只是偶然发生，那么就代表它是显著的！显著性是以P值（即概率值）衡量的，它将反映你的结果是否与统计假设检验中观察到的结果一样极端。P值会假设你的零假设在一开始就是正确的。

要记住的是，P值取决于测试组的样本量。P值大小从0％到100％，但通常写为十进制。例如，5％的P值为0.05。低P值是良好的表现；它们表明结果不是偶然发生的。你可以将高P值视为反驳零假设的弱证据，而将低P值视为反驳零假设的强证据：

高P值：你的实验数据证明了零假设的真实性（零假设成立）

低P值：你的实验数据无法证明零假设的真实性（零假设不成立）

我已经听过很多次人们试图解释“结果几乎是显著的”之类的说辞，以充实他们的报告。让我们清楚一点：

实验中没有“几乎是有意义的”这一回事。你的测试结果只能是显著的或不显著的。

除了确定测试结果是否具显著外，你还需要定义效果的大小，或零假设和替代假设之间差异的大小。要确定这一点，你需要进行检验统计量。基于零假设中假设的概率模型，不同的假设检验使用不同的检验统计量。一些常用的测试包括：

Z test (Z statistic): Z检验测试结果低于或高于总体的多少个标准差。Z分数也称为标准分数。
T test (T statistic): T检验会显示两组之间的差异有多大；换句话说，它让你知道这些差异（以均值/平均值衡量）是否可能是偶然发生的。
ANOVA (F-statistic): 与T检验类似，ANOVA可以告诉你不同组之间的差异有多严重。t检验用来比较两组样本，而ANOVA检验可以进行两组以上的检验。
Chi-square tests (Chi-square statistic): 可以帮助你找到涉及零假设和替代假设的变量之间的关系类型。

在进行分析时，你需要选择最适合你的实验的检验统计量，并计算T和P值以评估实验表现。Statsmodels库中包含了一些强大的功能，可帮助你进行上述的检验统计量。

总结

由于“A / B测试”通常被用作促进增长的代表词，因此花时间进行适当规划以最大化它的影响显得尤为重要。如果你想要正确地花费时间在设计、实施和评估实验上，为你的工作内容带来巨大的转变；更重要的是，帮助自己在职业生涯中实现真正的飞跃式成长，那么一定不要错过MarTechApe的《A/B测试企业级实战训练营》！让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程。在过去开办的两期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！以下为往期学员的战绩榜：

点击下方图片了解项目详情