奈飞、苹果、纽约时报：订阅制商业模式是怎么做数据科学的？

原创：MarTechApe

数据科学早已脱离学术研究范畴，如今正逐渐紧密地与商业结合，一名优秀的数据科学家不仅需要了解行业的细枝末节从而提出可行方案，同时还要有效地向利益相关者阐述结论。

数据科学家可以通过多种方式主导业务

首先，数据科学可以使产品更加数据驱动化。产品内部的推荐系统就是最好的例子，数据科学可以为用户实时推荐最关心的内容。

其次，统计模型可以直接优化当前的内部流程，从而提高业务和工程的效率、降低运营成本。例如，通过预测仓库的库存水平来帮助优化物流。

第三，数据科学可以帮助提升产品的市场可见度，通过把信息传达给还不了解产品的细分用户。这种数据科学模型就包括细分客户、预测客户行为，自动生成CTA（用户行为号召）文案等。甚至连根据用户在平台上的行为向用户展示产品功能这样的小事情，都有助于提高某一项产品功能的市场可见度。

当然，以上的例子并不能穷尽地囊括所有数据科学的应用范围。但是归根结底，无论是何种的数据科学模型，都会最终影响商业关键指标。

什么是基于订阅的业务？

如上所说，数据科学的模型林林总总，今天我们会着重讲述最主导的一个模型：订阅业务模型，以及数据科学发挥的作用。简单来说，基于订阅的业务模式就是按周期（通常是每月或每年）向客户收取产品（或服务）访问费的业务。订阅模式在软件业务中非常流行，特别是由于云的兴起，导致了许多软件即服务（SaaS）业务的出现。

请注意，SaaS业务不一定是基于订阅的业务，因为存在现收现付模式（如Snowflake的模式）。Snowflake的例子中用户只需要根据用量付费，而并非是订阅模式。

常见的订阅业务的例子包括Netflix的流媒体服务、《纽约时报》（New York Times）等报纸和杂志订阅，以及向订户提供预置餐的Hello Fresh。

此外，一些老牌科技企业也在采用这种模式。例如，Adobe也一直在通过其创意云将Photoshop和Lightroom等知名产品转移到云上。微软的Office套件产品也在向订阅模式转变，而不只是过去的授权模式。

有些订阅业务拥有大量的免费用户基础和一小部分订阅（付费）用户。他们的目标是建立一个用户网络，让他们提供数据来增强付费产品的用户体验。针对免费用户也可以通过广告变现，为了避免看到过多的广告影响体验，免费用户很可能会被转化为付费用户。例如Spotify的免费和付费产品。

一项订阅业务的成功与否，取决于随着用户基数的增长该业务能否有效地将其用户群变现。如果一个产品能拥有超过5%的用户参与了会员订阅服务，那它就会被视为一个非常成功的产品。当然这个比例标准会根据订阅费用有所增减，如果订阅费越高，那我们就能接受一个相对较低的订阅率。

聊聊指标！

关键财务指标

基于订阅的商业模式的成功通常取决于两个重要指标：年度经常性收入（ARR）和订阅服务的流失率。

ARR被定义为每一个单次订阅的年总价值的总和。由于订阅计划可能会有不同的分层，因此最好是在订阅者的基础上将订阅收入标准化。每个用户平均收益（ARPU）是在单个用户基础上对收益贡献的平均衡量。

当订阅用户终止与业务的关系时，订阅者会流失并退出商业漏洞。流失率是在一个固定的时间段内，平均取消订阅的订阅者数量除以活跃订阅者总数。周期范围通常设置为7、14和30天。更长的样本周期有助于消除由于用户不活跃造成的反常情况（比如节假日等季节性影响）。需要注意的是这是一个滞后指标，因为它只能进行追溯计算。

留存曲线展现的是用户流失率。通常通过一个群组来衡量，并在订阅开始后的几个月里进行跟踪。理想情况下，我们希望用户留存率在订阅后的一年多时间内保持在较高水平，并呈现出扁平化或更理想的微笑曲线，这意味着客户在流失几个月后还会回来。这可以从下面的图表中看出。

至于真实世界的例子，本文提供了Blue Apron、Hello Fresh、the Dollar Shave Club和Netflix的用户留存曲线。Netflix的用户留存率最高，而Hello Fresh最差。

在SaaS业务中经常使用的最后一个相关衡量指标是净收入留存率。基于一个给定群组，净收入留存率可以计算为：该群组当前MRR（每月经常性收入）除以一年前的MRR。这一指标不仅显示了收入流失的影响，而且还验证了其他举措（如升级和交叉销售）带来的好处。

衡量用户基础

在大多数SaaS业务中，都有免费用户和订阅者。用户网络在竞争对手周围筑起了一道护城河，因此用户基础对企业非常重要。重要的不是注册用户的数量，而是产品或服务的活跃用户数量。活动用户是与产品有交互的用户，例如登录并使用产品。活动用户的定义是基于特定于业务的。日活跃用户（DAU）或月活跃用户（MAU）的数量将是关键指标，这取决于产品/服务是每日使用的（如NetFlix）还是每月使用的。

同样，每日新用户（DNU）或每月新用户（MNU）可以用来跟踪新用户。这个指标可以将新用户与活跃用户分开，让我们跟踪新用户加入的速度，还可以衡量营销战役的有效性。有人认为，DAU和MAU是一种虚荣指标，因为除了吹嘘，它们没有提供真正的价值。这些指标不能衡量用户对产品或服务的满意度，也不能衡量用户发现的产品或服务的价值。但是它也有自己的优势，即它是一个非常简单且直观的指标，可以让利益相关者非常快速的了解到业务增长效果。

营销指标

一个相关的概念是订阅的生命周期值（LTV）。LTV是包含订阅价格和流失率的函数。它还包括贴现率（即考虑了订阅服务中的现金未来价值）。订阅用户并不都是相同的：很多情况下，一小部分的用户的终身价值很可能比大多数人都高，而公司的目标就是让这些订户满意。为简单起见，我们假设用户的（经济）生命周期是永远的。那么，公式为:

这里的保留率是1减去流失率，总贡献的净值是每一个客户在一年内创造的总收入。

客户获取成本（CAC）是每个新获得的用户的销售和营销成本。它是衡量营销支出效率的一个标准。很明显，如果我们在争取新客户上花费太多，那将是一件坏事。

我们可以计算每个营销渠道的CAC，以量化渠道的效率。相关的度量方法是取LTV与CAC的比值。它衡量的是营销支出在为企业带来高价值用户方面的效果有多好。根据经验法则理想情况下，LTV-CAC比率应该在3:1左右。1:1的市场营销花费太多，5:1的市场营销花费太少。当然，这个比例因业务而异。

数据可以在哪里可以大显身手呢？

数据科学可以通过预测和优化这些指标来改善市场营销手段并帮助将客户转换为订阅订阅用户。我们来看一下常见的应用方式：

直接性的指标预测

预测ARR和ARPU是用来了解业务是否运行良好的指标。时间序列模型可以用来预测ARR和ARPU。由于收入受季节变化的影响，所以我们会使用SARIMA（季节性ARIMA）模型及其变体进行预测。但其实现在，许多复杂的财务预测已经可以用有功能强大的数据库（如Facebook的Prophet）进行处理了。

流失预测

客户流失预测非常重要！众所周知，将客户留存在订阅产品中要比吸引新客户更简单。原因也很简单：就是相比于吸引新客户，保持老客户满意的成本要比花费在营销（联盟，SEO，增长工具）上的成本低得多。

从广义上讲，数据科学对与流失率的研究在宏观和微观层面上都有涉猎。

在宏观层面来说，我们可以预测预定订阅用户的流失率，如上面保留曲线图所示。这些是聚合的订阅用户组别，例如，可以通过地理特性进行加总，如北美地区。它主要的目的是随着产品持续的发展，追踪用户的流失率，来检验产品是否随着时间的推移为订阅用户提供了更多的价值。通常，我们会使用某种形式的模型来计算不同的方案最终获得准确的指标。整体上来看，它属于基于模型的、非参数技术。其中后者包括标准生存分析技术，例如Kaplan-Meier估计器。不要小瞧了“订阅”这个术语，订阅本身可以简单到只需每个月支付固定的金额即可，但它也可能非常复杂，具有多种类型的“状态”，比如包括订阅保留，不同付款方式的各种折扣用于激励用户进行注册，以及不同类型的计划（例如，Spotify中的个人计划与家庭计划）。由于一些本土化的改进，对于不同的地区的用户也可能会有不同的订阅计划和价格。

订阅通常会有很多种形式，因此它很适合通过模型去分析优化。例如，半马尔可夫模型（semi-Markov models）可以对不同的订阅状态以及不同状态之间转换的订阅量变化进行建模。根据实际经验表明，大家会使用简单的模型来建模并预测客户流失率。主要的原因是可解释性：数据科学家需要经常给别人阐述如何进行客户流失预测。Fader-Hardie模型是一个简单但非常有用的客户流失预测模型。它产生的预测值可以估计出各个细分市场上的订阅用户的LTV，以了解高价值订阅用户的用户画像。而且，它很简单所以可解释性强，因为从模型拟合阶段得出的beta分布给出了流失率的分布。

微观层面就很有趣了。机器学习模型被开发用来检测即将流失的用户。这些模型考虑到了用户的各种特征，以预测用户的流失。使用的特征主要有两个来源：人口细分和行为数据。顾名思义，人口细分就是用户的固有信息，比如他们来自哪里，在哪里工作，他们的年龄段和性别。行为数据主要是用户使用产品时收集的数据，例如登录时间和使用的功能是什么等。

人口细分的信息通常是静态的，而行为数据是随产品，随时间变化而变化。通常，预测模型会从行为数据中获取更多信息，因为用户可能会以奇特的方式使用产品。此外，产品/服务经常会有改动，特别是对于SaaS业务来说，它的更改与边际发行成本几乎为零新软件发行一样频繁。

流失率预测的真正目的是在订阅用户可能会流失时进行干预。

根据订阅用户的流失可能性进行排名，然后干预那些 “对产品持观望态度” 的订阅者。不同的业务所使用的干预方法也不尽相同。一些典型的方法包括电子邮件，应用内通知，以及优惠折扣。

传统上，干预过程与流失预测是相互独立的。但现在出现了一类新兴的增量模型（uplift models），发挥着干预过程的作用。比如，用户在干预时很可能会流失，但在不介入时会保留（称为“请勿打扰”）。另一方面，有一些订阅用户将从及时的干预中受益，因为干预方法可能有效地证明了产品的价值（称为有说服力产品）。下一步的目标是从一组订户中找到可说服的对象。如下图所示。

潜在客户评分

潜在客户评分的目的是找到现在还是免费使用服务但是可能会订阅的用户。像流失预测一样，免费用户的人口细分和行为数据都会用于训练机器学习模型以输出倾向得分。

潜在客户评分用于寻找潜在的产品转化者。

然后，将用户（即潜在客户）从最有可能转化到最不可能转化的潜在客户进行排名。排名靠前的用户可能会转换为订阅用户。如果潜在客户是大型企业和企业潜在客户，那么这个潜在客户排名列表就会被分享给销售团队进行使用。

同样，这里可以使用增量模型，以低销售成本和营销支出来推动用户订阅。

最后

我们只是触及了一个非常复杂的主题的表面。还有很多其他的业务指标，其中一些取决于所处的行业。数据科学可以通过直接瞄准这些业务指标来提高效率，从而优化收入。我要引述古德哈特定律（Goodhart's Law）：

当一项衡量指标成为目标时，它就不再是一项好的指标。

指标是很有用，因为它们可以为商业表现提供指导。但是重要的是不要沉迷于指标。任何度量标准都无法捕获订户体验，对产品的满意度和道德规范。如果你也想成为数据科学家，如果你也想用数据科学方法来优化商业决策，那就千万不要错过MarTechApe的宝藏项目《营销组合建模企业级实战训练营》，一个专门培养优秀数据分析师/数据科学家的企业级别实战项目，拥有企业真实数据（改编）与行业标准流程。项目经历可成为简历上的履历！

训练营的学员收获了:

真正意义上的“用数据和模型解决营销中最重要的问题”的经历。
熟练掌握SQL、R、Tableau等时下最流行的数据处理语言，并用这些技能解决实际问题。
大大提高Media/Advertising Industry的商业意识，熟悉不同媒介渠道的广告活动对不同商业指标的不同回报率（ROI）与有效性（Effectiveness），学会用“营销效果”的视角看待营销活动，理解各大公司市场营销部门、消费者洞察部门的痛点。
跳出学校作业的框架，上手真正商业情境中、实际工作中的实战案例。让校园与实际工作无缝衔接。将学到的Analytics思维方式泛化到其他应用场景，面对Case Study建立系统性解决思路。
提升项目演示Presentation技能，学会如何从原始数据中挖掘具有意义的故事。为客户解决实际问题，提高Business KPI。
完成项目后，辅导老师将帮助你利用这一个惊艳的项目背景打造最引人注目的简历；所有学员获得内推机会，优秀学员获得一对一面试辅导。