教你拿下Facebook“产品增长分析师”面试！

原创：MarTechApe

最近，有不少同学都在面试Facebook的Product Growth Analyst这个职位（原名Growth Marketing Analyst）。这个职位在后疫情时代加快招聘进程，很多人在8、9月都已经收到面试邀约啦！众所周知，Facebook有着一个百人增长团队，是所有Facebook产品的增长引擎。每一个Product Growth Analyst都会负责与不同的产品对接，为其提供产品分析的支持。

说到这个职位的面试，你可千万别被它以前的职位名称所误导，虽然它曾被称为Growth Marketing Analyst，但是面试题目并没有侧重营销战疫/广告投放，事实上它的面试侧重点在于——产品战略、产品设计、产品分析。（其实这个职位的面试题和产品经理挺像的）。

比如，在最近这段时间，这个职位的常见面试题包括：

- 怎样提高Facebook Groups的活跃度？

- 怎样让Instagram用户多去Facebook发帖？

- 怎样提高Instagram Story的活跃度？

- ......

这些题目，就是典型的产品案例题，而你在回答这些题目的时候，除了要有产品思维的面试框架之外，你也往往绕不开一个答题重点——如何用A/B测试来收集数据并证明你的产品提高方案是切实有效的。一句话：面试Facebook，你绕不开A/B测试；而A/B测试，直接挂掉了90%的Facebook候选人。

那么，A/B测试面试题的答题框架，到底是怎样的？

我们先扫个盲：A/B测试是通过对同一事物的不同变体（variants）进行测试来看用户更喜欢哪一种的。这样的测试对于衡量某一变化的影响以及建立起变化和结果之间的因果关系（causal relationship）至关重要。这些变化可以是：

1. 产品变化

用户界面设计（UI Design) 或者增加新的功能特征（Features)
推荐系统/搜索排名/广告展示等的算法强化

2. 优化增长

促销（Promotions），优惠券（Coupons），或奖励计划（Inventive Programs）
搜索引擎优化（Search Engine Optimization, SEO）

那么，A/B测试的面试会问什么的问题呢？

答案是，A/B测试面试会要求你清晰地描述从设计到实施测试的全过程，包含以下的框架：

实验设计和方法定义
结果测量/分析
产品见解/运行实验
启动决策平台团队

具体让我们来看看大厂FAANG（Facebook,Apple, Amazon, Netflix, Google）都是怎样考察A/B Test的：

Facebook真题：青少年在Facebook上的活跃度由于他们父母的加入而明显降低，为什么？你会怎么做？
Google真题：现在你有$150,000的预算用来给一个新产品做促销。你会选择下面哪一种渠道：email，广告展示（display ads），赚取的媒体（earned media，区分于owned media和paid media，earned media是当内容通过社交媒体或口碑交流获得关注时才能获得），常规信件？
Amazon真题：你的团队推荐了一个通过在网站上增加一个新的产品类别来提高收益的新方法，但是管理层担心这个方法实际上有可能对销售不利甚至破坏和现有供应商的关系。你会怎么做？

什么样的人在面试官眼里是最佳人选？如何破解面试题目背后的考验？

简而言之，你需要证明自己有强大的统计基础，并且对与团队一起进行AB测试的机制有良好的理解。以上面 Amazon的问题为例，我们一步步来分解这个面试题：

问题：你的团队推荐了一个通过在网站上增加一个新的产品类别来提高收益的新方法，但是管理层担心这个方法实际上有可能对销售不利甚至破坏和现有供应商的关系。你会怎么做？

第一步：提出假设

首先，我们需要根据这个问题提出一个假设，一个好的假设可以直接清楚地描述你要测试的内容。

在这个案例中，我们要测试“在网站上添加运动产品类别是否会增加收入？” 为了更好地验证/推翻这个假设，我们需要将其分为两个部分：

零假设（Null Hypothesis, H0）：零假设通常假设实验组（treatment group）和对照组（control group）之间没有显著差异。
被择假设（Alternative Hypothesis, H1）：替代假设假设实验组和对照组之间有显著差异。（换句话说，统计学意义上，实验组结果不同于对照组结果）

一个很好的经验法则是遵循PICOT框架：

- 人群（Population)

- 干预措施（Intervention)

- 比较（Comparison）

- 结果（Outcome）

- 时间（Time）

值得注意的是，假设应包括所研究的人群（比如，Amazon.com美国访客，伦敦银行客户等），干预措施（网站布局A和B，目标贷款还款SMS），比较组 （与之进行比较），结果（测量什么）和时间（什么时候测量它）。

在这个案例中，一个强有力的假设陈述应该是这样的：

零假设（H0）：将运动类别产品页面添加到亚马逊网站不会使其在美国的销售发生任何变化。
被择假设（H1）：在亚马逊网站上添加产品的运动类别将使其在美国的销售产生统计学意义上的显著变化。

假设的细分：

人群：访问过Amazon.com网站的个人
干预措施：运动产品的新产品类别
比较：浏览原先网站布局的访客
结果：购买率
时间：结束访问Amazon.com的时间

第二步：建立起随机策略

我们想要随机抽取访客的样本，这也意味着每一个访客将有着同等机会并被随机分配到实验组/对照组中。这是有效避免混淆偏差（confounding bias，正向偏差会导致结果过分趋于零假设，反向偏差会导致结果过分趋于替代假设）的唯一方式。同时我们也应该考虑集群效应（cluster effects），准确地使用随机抽取的单位。

▲ 混淆的原则（The principle of confounding)：混杂因素（confounder）使曝光更有可能，并且可能以某种方修改了结果，使得当曝光和结果之间并无关联时，仍然显示出其中的关联性，或者掩盖了真实的关联性。

在面试中，有一个问题出现的频率非常高，那就是：

如何实现随机?（How you made the randomization decision?)

就这个案例来说，我们有两种方式问答这个问题：

随机分配访问者到A版面或B版面
允许访问者自己选择是否参加运动产品类别的新版面测试

第一种方案更适合这个具体案例，因为如果我们允许访问者自己选择是否加入测试，很可能会削弱我们的A / B测试的有效性。试想，如果很多访客都来自某个国家或某个性别，结果会怎么样？但即使是进行了随机分配，也可能发生混淆。一项关于用于控制糖尿病的二甲双胍药物的著名研究表明，二甲双胍有助于降低癌症发生率。后来发现这种说法是不对的，因为研究中对混杂效应没有得到有效控制。避免这种情况的一种方法是使用倾向分数（propensity scores），潜在的混杂因素用来建立统计模型，该统计模型为每个人分配一个倾向分数，分数高的人更有可能产生某些混杂因素，而分数低的人则较少产生混杂因素，以此来更好的控制混杂效应。

第三步：设置指标（Metrics）

在实验开始之前设置指标，可以帮助我们了解实验引起的变化（并区分哪些变化是重要的）。理想情况下，我们会将指标分为两个类别：

关键指标：用于评判实验和制定决策的一些指标
监控指标：
- 衡量负面影响的指标
- 跟踪以估算影响的现有指标

如何选择指标呢？这就涉及到了两个重要概念：敏感度（Sensitivity)和稳健性（Robustness）。指标应选择我们关心的变化（敏感度），而剔除我们不关心的变化（稳健性）。例如均值（Mean）对异常值敏感，并且受这些观察结果的影响很大。而中位数（Median）不那么敏感，但更稳健，如果我们仅影响一部分用户，即使是很大一部分（如20％），中位数也可能不会改变。

我们还可以使用A / A 测试来估计指标的经验差异：A / A 测试将看到相同事物的人们彼此进行比较，以检查该指标是否能够显示出两者之间的差异。

A / A 测试将一组划分开成不同部分，并使用相同的控制条件对不同部分进行比较，这里的差异就由潜在的差异性（如用户拥有的操作系统）驱动。如果您在A / A 测试中看到一个度量标准（Metric）存在很多差异性，则它可能过于敏感而不适合在实验中使用。

第四步：选择样本量

曝光（Exposure）和曝光时长（Duration）

通常，测试只会选取一部分人进行并且我们要去确定这一部分人的数量，这样做是因为万一实验不成功，不会对所有用户带来负面影响。保守来说，实验一般涉及5％或更少的用户群，之后才逐步推出。

如何确定测试中的曝光百分比？我们需要回答以下三个问题：

可用来测试的总人数是多少？
估计对用户体验和业务的影响
对工程团队来说，测试和调试错误有多困难？

考虑一下工程团队所需的工作规模和变更范围，以下哪一个变更范围更大？

示例1：重新设计网页的完整布局

可能会大大改变用户的行为，需要三支工程师和设计师的团队来协调。

示例2：更改登陆页CTA转换率上的按钮颜色

一位工程师将在2分钟内完成此操作。

关于样本量，我们在面试中可能遇到这样的问题：

测试所需的时间多长？
最小样本量是多少？
如何平衡用户体验和快速学习？
你的推出计划（roll-out plan）是什么？

除了以上详细的测试步骤会很容易在面试中被问及之外，还有一些我们要具备的统计学概念

1. I型错误，II型错误（Type I,II errors）

任何时候只要我们需要用到统计学来做决策，总会有四个可能的结果，两个代表正确的决策和两个错误的决策。这两种错误的机率成反比：即降低I型错误率会增加II型错误率，反之亦然。

2. 功效分析（power analysis）

功效分析在数据收集之前进行，主要目的是帮助我们确定在所需的显著性水平所需要的最小样本量。

3. 最小可检测效应（MDEs,Minimum detectable effects）

在实验中，因为所有的干预和改变都是有成本的，所以我们想要知道，我们需要看到的最小的影响是怎么样的？因为如果干预措施的投资回报率（ROI）为负或小到可以忽略不计，那它对于我们之后的决策就起不到任何作用。以下示例可以帮助我们刚好的理解这个概念：

示例1：重新设计网页的完整布局

需要三支工程师和设计师的团队来协调，成本$ 50k

在示例1中，我们只关心能够检测到大于$ 50,000的效果。假设$ 50,000相当于转化率提高了7％。那么我们将MDE设置为7点，将效果大小设置为7点进行计算。

读了这份A/B测试题的标准答案，是不是有一种恍然大悟的感觉？应对更多FAANG大厂的A/B测试题，还需要从实战中积累，才能面试中更胜一筹！

MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景，让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程。

在过去开办的三期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！

以下为往期学员的战绩榜：

▲《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

🔥目前，MarTechApe《A/B测试企业级实战训练营》正式火热报名第4期！🔥
每一期训练营，我们只招收20名学生。

👇点击下方按钮，了解项目详情！👇

A/B测试企业级实战训练营

免费资源, 求职宝典Mengxue LeiSeptember 23, 2020