App Store的A/B测试:那些年我犯过的错
原创:MarTechApe
苹果的App Store和Google的应用商店都分别有超过200多万个app,但根据comScore的美国移动应用报告,美国用户平均每个月最多下载3个新app,显而易见App Store中的竞争有多么激烈。想要从几百万个app中脱颖而出,仅仅创造卓越的产品是远远不够的。如果一个app不能在App Store排行榜名列前茅或是被优选或推荐,那么让用户找到它的唯一方式就原生发现(其实就是偶然的邂逅啦~)或者搜索,那就不要奢望高曝光和高下载量了。
因此所有App都在进行移动商城优化(App Store Optimization),有些人会称它为移动领域的SEO。而对于ASO来说,最至关重要的策略就是进行A/B测试。
A/B测试是营销人员的入门工具,可以通过A/B测试来揭示如何在应用商店中提高APP的转化率(也就是从页面浏览量到app下载量的转化)。与移动营销的其他方面一样,A/B测试也需要科学的部署。但是,尽管许多营销人员可以运行独立的测试,但很少有人采用长期有效的策略来优化它们。
如果你还不知道A/B测试是什么的话,来看一个简单的例子,你能猜到下图哪个icon有着更好的转化率吗?
A/B测试的工作流程“看似”很简单:首先提出一个假设(比如,戴帽子和墨镜的人物形象的图标,比什么都没戴的那张有更好的转化率);之后将导向app的流量分成两个部分,50%流量导向第一个图标,另外50%流量导向另一个图标。除去图标上的差异,确保app别的内容都一模一样。然后看两组里,哪一组流量产生了更高的转化率,那这组就胜出了。然后胜出的图标就会拥有以后的100%的流量。
A/B测试看起来简单,但在实际操作中,却有很多“坑”防不胜防。如果操作到位,那么A/B测试可是曾经为某旅行app带来过150%以上的转化率的。但如果操作不当,你就很难锁定影响你的app转化率的因素到底是什么。比如在我们刚看到的两个图标中,结果是,戴帽子的这张图以7.2%的转化率赢了。但我们不能确定,到底是因为帽子或是墨镜为左边的图标增加了一层神秘感,还是因为那杯明亮的鸡尾酒吸引了眼球。
必须承认的是,在绝大多数开发团队中,A/B测试的策略都是碎片化、低效、和短期的。这些不太好的策略使得app转化率优化变得毫无方向。那我们今天就看看,在移动商城优化的A/B测试策略中,有哪些严重的错误,正在每天发生。我们该如何避免?
错误一:测试目的
许多营销人员的测试动机和测试目的过于急躁。他们常常以提高转化率为目的进行了实验,但这样的目的其实不是一个“正确的”实验目的,测试的目的是为了验证想法,一步一步找到提高转化的方法,而不是一步到位地直达转化率的提高。这样的错误非常常见,甚至有很多ASO的专家都已经不再去思考他们为什么进行测试。其实正确的做法是,在进行实验前,所有测试人员应该问自己四个问题:
我们的app的转化率还可以提高吗?
到底是什么在阻止着转化率的提升呢?
我们做哪些改变也许可以移除掉这些阻碍因素?
我们如何确保这些改变的确能够移除阻碍,最终提高转化率?
答案是:测试,验证,学习,重复。
错误二:测试对象
ASO中AB测试的第二个严重错误与测试的优先级有关。App store里不同的元素对转化率有不同的影响,某些元素更值得进行测试。由于时间和资源有限,必须首先测试最有价值的元素。
可惜,经常有人先测试影响较小的元素(比如app的说明描述),然后再测试重要的元素(例如应用截图)。这其实和大多数营销团队的决策过程有关。通常情况下,app发布者都会先在内部产生一个想法,然后再询问内容战略或者市场战略顾问。也有很多团队是根据直觉生成几个备选项,然后进行测试去发现哪一个的效果更好。但这样的决策过程,多多少少是靠直觉和经验的。
我们给你提一个建议,可以把所有元素按照它们的测试价值分成四个层级,然后选取价值较高的元素去优先测试:
第1层:应用截图和视频。它们应该是优先级最高的元素。应用截图是最可测试、可扩展和可生产的视觉元素,并且视觉效果比文本效果更重要。在所有市场营销资产中,视频具有最大的CVR提升潜力(单次更改就有40%的可能性)。
第2层:关键字索引的元数据(metadata)。指的是由搜索排行算法索引的文字元素。它们包括:标题,副标题(iOS),简短描述(Android)和详细描述(在两个商店中均可用,仅在Google Play上建立索引)。它们对转化率的影响通常比视觉元素低,但它们支持关键字(搜索)优化。
第3层:其他营销视觉元素。图标、功能图形(Android)和产品页面插图(iOS和仅适用于一些特权应用程序)。尽管它们具有很大的CVR影响力潜力,但可测试性不是很高,例如,图标太小、受品牌宗旨的限制,没有视频功能就看不到功能图,而产品页面插图则只能进行一次测试,而且大多数应用程序没有这个选择。
第4层:其余元数据。其他具有CRO潜力的文字例如:宣传促销文字(iOS),详细说明(iOS版本,允许的格式选项少于Android)以及发行说明或新功能部分。它们很不错,但并非必不可少:其余元数据的关键字未编入索引,对CVR的影响很小(例如,没有多少用户阅读发行说明或详细说明),并且它们主要用于iOS,这比在Android进行测试要难得多。
通过将这些元素分层,你可以更清楚地了解测试优先级,并可以轻松地确定合适的元素进行测试。
错误三:测试平台
即使选对了测试对象,有时在测试环境或运行AB测试的平台上也会出现技术难题。由于缺乏针对所有营销元素和所有应用程序商店的统一测试平台,因此决定在哪个平台进行测试不是一件简单的事情。如果选错了,那测试结果可能会被错误解读,并且CRO活动可能会被误导。
为了避免这种错误,您需要了解不同的测试平台。以下是要考虑的五个最常见的选项:
1. Google Play控制台,具有商品详情实验(SLE)
到目前为止,这是业界最喜欢的测试平台,因为它是:
免费的。
真正的split testing-无偏向且更可靠。
直接集成到控制台中-效率更高。
但是,它一次仅支持Android应用和最多五个并行测试。它还不允许测试标题或将间隔置信度提高到90%以上。
使用SLE可能会犯的一些错误包括:
将结果视为理所当然。90%的统计显著性通常意味着10%的误差范围。10%的范围较大,需要仔细解释结果。
用SLE开发标题测试。完全不能够支持营销资产。可以从其他资产的经验中推断出来,也可以在其他地方进行测试。
SLE快速,简便,便宜且高度科学。可满足Play商店中大多数CRO的需求。但是,一个平台永远不足以依靠。
2. 具有创意集测试(Creative Set Testing)的Apple搜索广告
这实际上不是A/B测试平台。这是苹果搜索广告(Search Ads)里的一项功能,可以测试不同的创意集(主要是应用截图)以验证广告优化的想法。由于搜索广告标语和自然搜索结果几乎相同,因此广告创意验证在很大程度上可以转换为自然搜索或ASO。
此外,它还:
部分原生,在App Store内部的搜索结果页面上。
价格便宜,其成本通常低于其他广告渠道。
在预算和流量允许的情况下,提供无限的并行测试。
但是,它需要付费的UA预算,仅支持应用截图和视频,并且仅允许iOS应用。这些可能会导致以下错误:
预算超用:搜索广告是为付费用户获取(User Acquision)来服务的。而ASO实验主要是提供洞察,不应该过度使用预算。
低流量测试:较低的流量意味着很难获得较高的统计意义。需要先查看搜索广告活动的效果,然后选择流量最佳的广告进行测试。
结果误解:一个创意集包含三个应用截图,但“产品页面”可能包含十个应用截图。测试一个并不总是能验证其他的。
创意集测试提供了多种选项来验证营销人员对CRO的想法,尤其对于iOS系统。可以把它作为SLE的补充,而不是作为主要平台来使用。
3. 供应商(第三方)
诸如Storemaven和SplitMetrics之类的供应商提供了测试解决方案,这些解决方案具有很高的统计意义并涵盖多个商店,具有很多优势。但是,它们确实具有某些缺点:
它们很贵。
它们是在app store外部运行的,使用“伪造的”商店清单,用户会被要求点击很多东西才能安装,大多数用户不会坚持点击这么多。
他们需要广告活动的流量,因而来访者可能是那些更容易受到广告影响的用户,造成偏差。
这些工具已经相当先进,并且得到了内部专家的支持,因此发生错误的可能性较小。但是,仍然有以下风险:
过度依赖:这些工具可能了解CRO,但营销人员是最了解其应用程序和用户的,应该有策略和测试概念。
过早使用:价格昂贵,最好在后期阶段准备扩展CRO时使用这些工具,而不是在早期探索阶段使用。
测量错误:测试是在伪造的着陆页上进行的,而不是在真实APP商店中进行的。后者的测量结果可能会产生误导。
4. 前后检验(pre-post analysis)
当你没有任何平台可以选择(比如你的预算有限),那么你可以考虑前后检验,以及我们后面会提到的跨地区检验。
前后检验指的是,对比在实际商店列表(而非测试)上进行更改之前和之后的相同时间段的CVR的变化。这个做法非常棘手,因为:
一直处于未知的外部因素的干扰之下。
与系统的实验方法相比(一组用户是控制组,一组是实验组),前后检验可能会对CVR造成更大的损害(因为所有用户都改变了体验,如果新体验是比原先更差的,那影响的是所有用户而不只是一部分用户)。
这种方法没有测试设计,需要大量的人力劳动。
由于这种复杂性,使用它的营销人员有以下风险:
选择错误的时间段,例如当存在太多外部因素时。
测量很短的时间,例如更改前后的几天。
(完全)将其用于SLE或CST支持的营销资产。事后分析仅应作为最后的手段。
由于其易变性,强烈建议不要轻易使用此方法。最合适的是在尴尬的处境时使用,例如需要测试标题,但负担不起第三方工具。简而言之,需要特别注意。
5. 跨地区测试
这种测试可以通过在另一个市场进行测试来验证本市场的想法。这两个市场必须非常相似甚至相同。例如,您想为俄罗斯测试一个新的应用截图概念,但是市场太大了,无法冒险,因此可以在乌克兰进行测试。由于某些文化上的相似之处,如果在乌克兰市场的CVR提升了,可能说明此概念也适用于俄罗斯市场。
像前后测试一样,跨地区测试也需要实时更新您的实际商品详情。它可以更好的控制风险,例如在风险较小的国家/地区进行测试,但同时也带来其他弊端:
相似程度有差异,毕竟测试市场是多个不同的国家。确保缩小差异,例如通过市场细分。
来自外部因素的潜在影响加倍:可能不会影响一个国家,而是两个甚至更多国家。测试将被破坏。
与前后测试一样,这不是一个比较完美的方法,但是在很多时候,如果你没有条件进行“完美”的测试,那这是唯一能解决问题的办法。
综上所述,所有平台和方法都各有优缺点。尽管可以谨慎使用所有这些功能,但为了降低风险,有一个理想的优先顺序可遵循:
Google Play SLE→Apple Search Ads CST→第三方供应商→前后测试→跨地区测试
错误四:测试人群
应用商店实验需要流量才能获得具有统计意义的结果。但流量不仅仅是数字,而是真正接触到你的app的人。可悲的是,有时我们忘记了谁看到了我们的测试,有时我们对错误的人群进行了测试。
什么意思呢?
App Store的“搜索”和”浏览“并不是用户找到您的应用的唯一流量渠道。用户还可以来自点击广告(例如来自Facebook)和内容营销帖子中的反向链接的付费用户激活渠道。他们对这些元素的反应方式可能会影响他们对APP应用的反应。
例如,在Facebook用户看到你的应用之前,他们必须:
在Facebook上查看帖子或广告横幅;
被它吸引;
点击它即可重定向到该应用的商品详情;
检查清单,然后安装。
如果他们在应用商店中看到的内容与在Facebook上看到的内容相矛盾,那这些用户不会被转换。这就会影响你的实验。如果实验组失败,你永远不会知道这是由于测试思路还是与流量错位的问题。这种混乱使想法验证变得不可能。
为避免发生此错误,使ASO与其他营销活动保持一致至关重要。以下是需要考虑的一致性的五个级别:
1.策略:你的公司或团队的整体营销策略关注重点是什么?所有营销活动(包括有机增长或ASO)应遵循什么标准?了解这些方面有助于阐明ASO的长期发展方向。
2.渠道:不同的营销渠道可能有不同的目标。例如,您可以使用Facebook Ads来提高知名度,使用Apple 搜索广告来降低用户激活成本,而可以使用Google Ads来加速优化进程。随着这些目标的变化,所采用的概念和沟通策略也会变化。如果能从所有渠道规划出这样的概念和策略,则可以清楚了解ASO应该与之保持一致或避免矛盾。
3.国家/地区:在同一个渠道内,有时应用可能需要覆盖具有不同文化背景的不同国家的不同受众。为了解决这种差异,营销方法需要本土化。确保您的测试与当地文化匹配良好。
4.广告系列:每个营销(例如广告)广告系列都有特定的目标。例如,“搜索广告品牌活动”旨在保护品牌,而“常规”广告系列是为了转化。多元化的目标意味着多样化的信息传递方法,应用商店信息传递不应反对它们。
5.测试元素:最具体的主要营销层次是元素。对于ASO系统,它是应用商店的元素。但是,其他渠道,活动可能会使用具有不同设计和消息的不同元素。例如,如果Instagram上的广告元素显示一件事,而您的应用商店资产显示相反的情况,则用户会感到困惑。困惑的用户会导致测试的结果不准确。
归根结底,如果您设法使ASO和AB测试与从策略到元素级别的营销活动保持一致,那么你可以确保所有交流都会吸引相似的受众群体。因此,AB测试结果不会因测试对象错误而受到影响。
错误五:实验时间
在一般情况下,尤其是在app store实验中,季节性可能会对ASO产生巨大影响。因此,在管理AB测试时应认真对待。选择错误的时间可能会在测试中引入意外的外部因素,从而难以解释结果。可惜的是,许多营销人员仍然忽略了以下错误:
市场波动:CVR可能由于市场需求下降而下降,而不是因为测试。
假期或特殊活动:例如在ASO不变的情况下,黑色星期五可能会提高大多数购物应用的CVR。
气候变化:例如在较暖的冬天用一个冬装为时尚应用程序测试一个想法可能会显示出较差的结果,但不代表这是一个坏主意。
季节性习惯:例如在炎热的夏天为烹饪应用程序推广热汤料理可能不起作用,但这不是因为烹饪汤不流行。
简而言之,至关重要的是要确保用户在看到您的应用之前不会受到周围季节性事件的影响导致结果的偏差。通过分析以下四个方面,可以预估季节性的存在:
行业:一年中什么时候行业经常不稳定?
市场:市场不稳定时期在不同国家的表现如何?
文化:这段时期人们的态度如何变化?
应用商店:这段时间内其他应用商城会发生什么?
越早回答这些问题,测试就越“干净”。
错误六:测试方法
所有分析中的第一条规则是找出问题的根本原因,从而知道什么是重要的,什么不是重要的。与应用商店实验相同。整个过程需要一次专注于一个要素,因此,当获得测试结果时,便确切知道要验证的内容。但是,仍然存在如何在ASO中进行测试的错误,营销人员最终会吸取错误的教训。
首先,营销人员一次要测试太多元素。进行多项更改后,如何知道导致CVR变化的原因?以下面的应用截图实验为例,在该实验中,测试组赢过控制组。是因为不同的标题颜色,删除的城市背景还是添加的底部绿色丝带引起的?对此没有答案:可能是至少三个更改的元素中的任何一个。
避免此错误的最佳方法是制定一份长期测试路线图,在此路线图中,每个细节都逐一排列以待测试,并且一次最多只能进行一次。这样的细节可以是任何东西,从前期的想法到颜色的阴影。无论如何,不要混淆。如果遇到上述的情况,请确保将其分成至少三个单独的测试。然后,您会发现增加CVR的确切原因。
错误七:移动商城
最终的严重AB测试错误涉及作为有形资产,应该去哪家APP商城来验证的想法。这是您实验的最终目的。这是许多人做错的事情:他们使用Google Play商城资产来测试一个想法,然后在验证该想法后将其复制到App Store。
为什么这是一个错误?
对于初学者来说,iOS和Android用户是不同的,他们具有不同的期望和态度,这将他们的下载意图和习惯区分开来。此外,不同的商店具有不同的布局和资产组成。在App Store上看似突出的内容可能很难在Google Play上注意到,依此类推。
从上面的示例中可以看出,Play Store屏幕快照虽然很小,但它们更需要清晰的上下文感,而App Store的屏幕快照由于其更大的尺寸显得更清晰易懂。包含无数其他差异,是为什么为一个应用商城验证一个想法不能保证该想法对其他商城也有用的原因。最后,如果针对错误的store进行测试,可能会适得其反。
避免此错误的最好方法是超越测试的材料范围。再次重申,它们不是为了转换,而是为了验证想法。重要的是要先关注所有想法。经过验证的想法可以以多种形式出现。您要做的就是在一个商城中对其进行测试,验证,然后将其变成适合另一商城的资产,然后再次进行测试。
总结
实验是ASO以及移动营销领域的重要方面。然而现阶段的技术并不能达到最完美的结论。为了完成更高效的测试,我们一定要注意营销人员在管理应用商城实验时的7个关键方向。这样可以帮助我们避免文章提到的这些严重错误。要解决或避免他们,请一定合理为测试策略定义以下内容:目的、元素、平台、时间、人群、方式、商城。
如果你想科学系统地掌握企业级别的A/B测试,使用百万量级的原始数据,搭建真实的A/B测试分析,掌握A/B测试在企业落地的完整流程,那么千万不要错过MarTechApe携手美国第一大家具电商Wayfair的高级商业分析专家共同开设的《A/B测试企业级实战项目》!
以下为往期学员的战绩表:
现在,MarTechApe《A/B测试企业级实战训练营》正在进行第3期报名!
每一期训练营,我们只招收20名学生。先到先得,遵循阶梯价位,优惠逐额递减,越早报名越优惠!
点击图片,了解项目详情
在《A/B测试企业级实战训练营》中,你将获得:
真枪实弹的A/B测试项目实操,真实数据+五大应用案例,从零学会A/B测试的里里外外!
为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目,让你在面试时可以自信展示自己亲自做的案例,成功拿下offer!
从0到100真实操作A/B测试项目的全套流程:数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示。
经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程,以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法!
深度学习A/B测试实战中常见的测试陷阱及避免方法。
牢固掌握公司里A/B测试项目中的实际SQL应用,为A/B测试搭建数据库、清理数据、创建数据集。
学会用Python自动化实现A/B测试,为你的老板提高100%的工作效率!
接受系统的统计训练,打下坚实牢固的统计基础,彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。
对互联网科技公司的深度剖析和指标介绍,让你自如面对各类面试考验!
各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。
长按二维码,添加小助手为好友,回复“AB”,即可报名《A/B测试实战训练营》:
小助手(微信ID:yvonne91_wsn)
你是否能在更好的公司做更优秀的自己?投资自己,全方位提升能力,为自己增添被验证有效的宝藏项目经历!赶快报名吧!