不懂Ghost Ads你也敢说你会A/B测试!?

Fei & Lynn MarTechCareer

先问大家一个面试中的真题:


如果你想做一个很精准的online ads实验(注意关键词:精准、实验)来测量你的广告是否有效,你觉得你将面临哪些挑战?


为什么要问这个问题——因为测量广告效果真的很难,并且有很多不同的方法,但在这篇文章里,我们主要讲的是,实验法。


许多广告人以为评估广告的效果是件很容易的事——你只要比较两个campaign的结果,不就可以了嘛?不幸的是,并不是所有方法都能让你得出科学的结论。只有科学的实验法——有实验组和对照组的实验,才是找出“what exactly works”的的黄金准则,并且这种方法在归因策略里扮演着重要的角色。那么,最理想的、精准的广告实验到底是什么样的?


精准的广告实验都有哪些特点?

一个科学的广告实验有两个主要特点:


  1. 一个定义明确的目标群体

  2. 精确地控制能看到广告


在我们讲实验法之前,我们首先得达成一个共识:一个广告并不能触达所有你想触达的人。(这点非常重要,是以下讨论的前提。)


为什么呢?因为在当今的线上广告的世界里,你的广告能否被用户看到是由很多因素决定的:用户的网络行为、竞争对手的bid,和无数的targeting参数。这样的结果就是,被你的广告serve到的用户可能和那些没看被你广告serve到的用户,可能本来就有着天壤之别。


有了这个前提后,我们现在来看一个理想的实验情况。


理想的实验情况是,我们随机地将原本就可以接收到我们广告的用户分成两个组。

为什么只考虑“原本就可以收到我们广告的用户”?——因为上文说了,那些原本就无法接收到我们广告的人和能接收到的人,可是有着天壤之别啊!所以,一个精准的实验,应该只考虑那些本来就可以接收到我们广告的受众。


然后我们给其中一组用户serve广告(他们就成为了实验组),而不给另一组用户serve广告(他们就是对照组)。我们假设,这两个组之间的唯一差别就是一组人看到了广告,一组人没看到广告,而在其他方面这两组人没有本质的区别。然后我们比较这两组人在购买行为(或转化行为)上的区别。从理论上讲,这是一个科学的实验设计。

为了更直观地描述这个理想的实验,我们看上面这个图示。左边是实验组——也就是被serve了广告的用户,其中有些人实际看到了广告,有些人虽然被serve了但没有看到你的广告。右边是控制组——也就是没有被serve广告的人,其中有些是本该被serve广告,但由于实验的设定,规定他们不能被serve(所以他们也当然没有看到广告),而实验组中的另一些人是本来就不会被serve广告的人。


理想实验应该比较的是绿色区域中的实验组和对照组——也就是,真正看到了广告的用户,以及,本该被serve广告却不让他们看到广告的用户。我们希望绿色区域的实验组和对照组有相同的用户成分(比如,两组人都有5个条形、一个实色),也就是说,我们希望这两组除了在“看到广告”这一点上有不同之外,没有其他不同的因素。否则,这两组是没有可比性的。


但是问题来了,我们如何识别那些本可以被serve我们广告的用户呢?——毕竟你只有去真正serve一个广告你才能知道谁是本可以被serve的。


方法1: PSA/Placeholder Campaigns


你可能想:这很简单啊, 我只要把我的目标群体分成两半,一组去serve我的广告,另一组人给他们serve另一种广告——不是我的广告也不是竞争对手的广告——而是比较中立的慈善类的广告(这就是行业内说的Public Service Announcement,又称PSA广告)。在cost per mille(CPM)定价以及一个非常简单的ad server下,这个方法是可行的,但这会给广告商造成额外的media cost(毕竟placeholder也是要付钱的)。


然而,现代的那些用CPC(Cost per click)、CPA(cost per action)定价以及creative optimization的Ad Server,扭曲了所谓的“PSA tests”。比如,如果ad network选择去更频繁地展示那些revenue更高的ads,那么你想测试的广告和placeholder广告,谁CTR高,就会被展示得更多——这显然给实验带来了干扰因素


此外,ad network还会给那些更可能点击的用户去更多地展示广告。而且,那些选择点击体育用品广告或服装广告的用户可能与那些点击慈善广告的用户本来就非常不同,这就导致了类似“苹果和梨”这种毫无意义的比较。因此,这样的PSA testing很可能会导致错误的结果。

PSA Tests在现代广告系统中失效

Ad network会区分对待你想测试的广告和PSA。Ad server的优化方法会导致PSA广告触达了一群完全不同的用户,这就导致了实验组(被你想测试的广告触达)和对照组(被PSA广告触达)的不平衡。所以这里,对实验组的和控制组(两个绿色区域)的比较就是无效的——注意在此图中,实验组中6个广告触达的用户里包括了5个条纹用户,但在对照组里,仅有3人是条纹的(所以这没有可比性)。所以这时,你所测量到的实验组和对照组之间的结果的区别,其实更可能是两组用户本身的区别导致的,而不是由“是否看到了你的广告”而导致的。


方法2: Intent-to-Treat


还有一种不需要placeholder ad campaign的实验方法:干脆不去管对照组里到底谁是“本可以被serve我们的广告”的


举个例子,如果我们随机将目标受众分成两组。然后给其中一组人serve广告。另一组人就不serve任何广告。然后比较两组之间所有用户的行为(不仅仅是那些看到广告的用户),从而衡量广告的曝光对用户行为的影响。通过比较所有的用户——不管他们是否有机会看到广告——我们仍然是正确地比较了广告触达的用户和“广告本可以触达却没有触达”的用户。但这个方法会让实验组和对照组都产生混淆因素——对于实验组来说,混进了一些“想让他们看到广告但他们却没看到”的人;对于对照组来说,混进了一些“本来就没想让他们看到广告”的人。这两种人都没有被排除在实验之外,会对实验的效度造成干扰。


这种方法被称为“Intent-to-treat”——从科学的角度来看,这种方法很干净,把同类事物进行比较。但是,混淆因素往往很大——实验组里并非所有人都看得到广告、对照组里也有“本来就不会被广告触达的人”,这些人其实并不应该成为实验的被试。所以这种方法,也不是最精准的。


“Intent-to-Treat”直接忽略“谁会被serve广告”这个信息。从实验组和对照组的“可比性”的角度来看,这个方法是比较科学的。但也有致命的缺点。


两组都有noise:在实验组,红色区域代表那些我们想要触达,但却没有触达的用户(我们是想让他们看到我们的广告的,但他们没有看到),这部分人就是noise。而在灰色区域,也有“本来就不会被触达”的人群,这也是noise,虽然我们不知道到底是哪些人是”本可以触达“,哪些人是”本来就不打算触达“。但从整体来看(红+绿 vs 灰色),整体的用户mix还是均衡的、可比的。


Ghost Ads:广告实验的理想解决方法


最理想的解决方案结合了以上两种方法的优点:对那些真正被触达的用户进行apple to apple的比较


我们称这种方法为“Ghost Ads”。当我们想要展示广告的时候,Ghost Ads会记录下来,确保对照组里的“本可以触达的”用户与实验组里实际触达的用户相比较。这个方法并不需要两个不同的广告创意,所以ad server即使在CPC或CPA的定价下也可以同等对待实验组和对照组的用户,避免了类似于PSA test那样的扭曲。


而且,由于Ghost Ads过滤掉哪些没机会看到广告的用户,它让我们可以精准测量广告的提升效果,并且其精准度比intent-to-treat高了50倍。


Ghost ads还有其他的好处:

首先,无论是广告商,ad network,还是出版商,他们都不需要支付PSA的费用。

其次,有了一个零成本的对照组,就可以设计出更复杂、信息更丰富的实验了。

第三,实验并没有拿你的广告与一个不相干的广告进行比较,而是测量与你的广告相关的其他广告:“本可以被serve我们的广告”的用户原本是会看到你的广告的,但由于他们在对照组,你对他们关闭了你的广告,所以他们看到的就是排在你后面的一则其他的广告——也就是在bid时排在第二位的广告。

第四,当用户看到广告时(例如ad viewability),ghost ads会记录下来,这可以帮助我们去除那些noise——也就是被serve了广告,但却没有看见广告的用户。


Ghost Ads可以通过Ad Viewability的信息来加强功效。有了Ghost Ads,我们可以记录具体哪些用户“本可以被触达”,以及其他的与广告曝光有关的信息,例如用ad viewability来提升ghost ads的测量。最有效的广告效果测量,就是去比较绿色区域中谁真的看到广告了(图中绿色区域中带眼睛的人)


放眼未来


建立理想的实验并不是一件容易的事。和PSA testing一样会有许多陷阱。新技术诸如ad viewability、real-time bidding、retargeting/remarketing、和user personalization都使得实验更加复杂,需要更严格的效度验证。Google以发明新技术出名,ghost ads就是其中之一。


Ghost ads有助于验证和改进现有的归因模型,并在广告效果测量领域掀起了一场革命。它正在成为评估和优化广告支出的关键技术。


如果你想更加系统地学习Ghost Ads以及其他A/B测试的延伸方法、商业情景中的对照实验这门技术,千万不要错过Apple苹果公司硅谷总部营销数据科学家精心教授的《A/B测试课程》!在这门课程,苹果公司的老师将抽丝剥茧地详细讲解A/B测试,课程包括以下内容:


课程表

苹果公司Apple

硅谷总部营销数据科学家

——《A/B测试》

1. 什么是媒介测试与学习(Media Test & Learn)?为什么我们需要在广告营销领域使用这种方法?

2. 在实际工作中会做哪些关于广告的实验?有哪些测试的对象?

3. 如何设计一个实验,实验设计的6个步骤,在A/B测试设计中的注意事项

4. 检验实验数据的可靠性和完整性

5. 如何分析实验结果

6. 如何根据样本来估计整体均值或比例的置信区间

7. 如何针对某一指标/metrics来判断实验组和对照组的区别在统计上显著

8. 如果想同时测试多个指标,应该注意哪些事项?

9. 什么是PSA,为什么我们需要PSA,PSA的劣势

10. 什么是Ghost Ads?PSA和Ghost Ads的区别

11. 营销战役的ROI与增量

12. 选择偏差

13. 因果影响分析

14. A/B测试的局限

15. A/B测试的延伸:Universal Control Group与Multi-Armed Bandit




目前这门课程正在参与《营销分析专项系列课》的限时优惠,与“营销组合模型”、“营销归因“、”增量模型“、”营销中的随机森林“一起,组成5种营销分析方法的《营销分析专项系列课》!正值85折优惠,了解课程详情请戳下图:




关于MarTechApe

MarTechApe是一个来自纽约、专注MarTech领域的知识分享|技能学习|求职服务的终身学习平台。我们提供最专业的Marketing Technology课程。

    已同步到看一看

    发送中

    Zhen Li