不推动销售的营销就是“耍流氓”？

原创：MarTechApe

如果你从事市场营销相关的工作，那么你有时可能在靠运气做事。虽然你一定不想跟上级汇报的时候说自己碰运气，但是你所策划的营销活动有多少对营收增长有真正贡献？对此你真的有信心吗？本文将介绍一个为你的信心提供数据支撑的技术：贝叶斯结构性时间序列分析。

贝叶斯结构性时间序列在分析营销因果关系中的运用如果你的公司在推行一个促销计划——也许在一月份有25%的折扣——你可能会设置一些营销活动的预算来促进交易。但如果，你不告诉别人这个促销活动，会有什么好处呢?如果这个促销活动开始了，你把预算花在广播和付费搜索上，你的收入肯定会增长。但是你的营销活动起到了什么作用呢？它是否仅仅因为促销活动力度比较大从而推动了销售或收入增长？

你可能对Spurious Correlation这个网站不陌生：这是一个提醒我们相关性并不总是意味着因果关系的网站。付费搜索支出的增加并不意味着它导致了我们观察到的收入增加。

有时候，我们不可能简单地说:“让我们把这些活动关闭几天，然后再启动它们，看看它们对收入的影响。”所以，如果你不能进行干预实验和随机对照试验，有没有一种方法可以让你能检测营销活动是否有效？

是的，有，而且R的CausalImpact包让这件事非常简单。

时间序列分析

回归对于营销人员来说是一个非常有用的工具。它的执行非常简单，或者是相对来说执行简单，它给出的结果很容易解释，这意味着执行和对结果进行报告都很容易上手。

间断时间序列分析(ITS)是简单回归的一种有用的扩展。基本上，它检查的是一个活动是否对你感兴趣的变量有影响。随着时间的推移，你所感兴趣的变量会被持续跟踪，你在执行特殊的campaign时，可以将它通过编码的方式新建成另一个变量。

但是，当涉及到数据中的季节性趋势或其他令人混淆的因素时，简单的虚拟变量可能不够，分析可能会变得越来越复杂，需要进一步转换以包括一些额外的趋势。这时我们就需要利用贝叶斯结构时间序列。

时间序列干预的因果推论

这不是一篇旨在详细讨论贝叶斯结构性时间序列(BSTS)建模的文章。目前，我们只需要将BSTS视为一种方法，它可以观察历史时间序列，并对其未来进程进行预测，从而比较干预之后实际发生了什么。这些统计数据可能不是最直接的，但是Kay Broderson和Alan Hauser为R设计的神奇的CausalImpact包让操作变得简单。

我们可以很容易地举例说明点击付费广告对网站访问量的影响，或者增加一个新的营销渠道来增加营收，但是这些听上去略显枯燥。我相信你一定不缺数据和相关的问题需要解决，所以让我们用一个有趣的生活中的例子来解释一下

曾经有一部风靡美国的电视剧《吸血鬼猎人巴菲》。我相信很多人都有这个疑惑，是不是电视的成功导致了越来越多的美国女孩被取名为Anya?让我们使用BSTS模型和因果推理来检测一下…

R内置的babynames包和因果推论

本文附带的代码在GitHub上，所以这里我就不赘述了，直接跳到相关的感兴趣的部分。

使用R中的babynames包，我们可以访问每年新生儿注册的姓名以及人数。我们很感兴趣的是，自1998年这个名为Anya的角色出现后，孩子名字的数量发生了怎样的变化？让我们来看一下:

看起来在1980年左右有一个高峰但事情似乎真正开始是在90年代后期，并进入21世纪。图里第一阶段看起来很有说服力，但是我们并不知道如果巴菲并没有上映，这个模式和我们预期的会有很大的不同吗?我们可以使用R里面CausalImpact包来研究这个问题。为此，我们指定干预开始和停止日期 (使用Anya被引入的年份和电视剧结束的年份)，并将其与一些不应受干预影响的名字进行比较。在这种情况下，我们将使用十个随机选择的普通女孩的名字，她们都不是巴菲这部电视剧的主角，而这是一个需要深思熟虑的决定。如果你在研究付费搜索支出对收入的影响，你会用什么来控制呢?

虽然CausalImpact函数不需要控制变量，但控制变量很有用，所以值得花些时间考虑可以使用什么。你可能认为Google Analytics 中的organic sessions是一个很好的控制变量，但需要问自己这样一个问题，你的organic点击量会随着PPC支出的增加而增加吗?是因为你的PPC广告获得了更多的品牌曝光，然后用户才更多的有机地搜索你的品牌吗？

在我们的例子中，我们构建了数据的xts时间序列，Anya作为第一列，是我们感兴趣的变量，后面的一些名字是算法将用于进行比较的名字。

利用这些数据，CausalImpact将绘制一个输出图，用虚线(可靠区间用蓝色阴影表示)预测每年被称为Anya的女孩的数量，用实线表示被称为Anya的观察到的婴儿数量。干预周期以垂直虚线表示。

在例子中，我们可以看到实线不仅在虚线之上，而且在可靠区间之上。让我们看一下结果的一些指标：

我们预计平均每年有285个女孩被称为Anya，但我们观察到实际情况是489个。95%上可靠区间的最大值是400，因此，由于我们观察到的数字489在其上面，我们得到一个p值为0.00201，它表示仅有0.2%的可能性被称为Anya的女孩数量上升是由于偶然。

CausalImpact这个包非常强大的一点是，在summary( )中包含了一个有用的论点，我们可以把它包含在一份书面报告中：

在干预期间（巴菲电视剧播出期间），我们感兴趣的变量（也就是叫Anya的女孩数量）的平均值约为489.40。相比之下，在没有干预的情况下，我们预期的平均值为285.06。这个预测的95%区间是[143.25,400.32]。从实际观察到的叫Anya的女孩数量中减去这个预测值，就得到了干预对反应变量的因果影响的估计。该效应为204.34。95%的区间为[89.08,346.15]。以下是关于这种影响的显著性性的讨论：

将干预后期间的个别数据点加起来(这些数据有时只能进行有意义的解释)，叫Anya的女孩数量的总体值为2.45K。相比之下，如果不进行干预（没有这个电视剧），我们预期的总和是1.43K。该预测的95%区间为[0.72K, 2.00K]。

以上结果是用绝对数表示的。相对而言，叫Anya的女孩数量增加了+72%。这个百分比的95%区间是[+31%，+121%]。

这意味着在干预期间观察到的积极效应在统计上是显著的，不太可能是由于随机波动造成的。但是，应该指出，只有将绝对效应(204.34)与基本干预的最初目标进行比较，才能回答这种增加是否也具有实质性意义的问题。

偶然获得这种效果的概率非常小(贝叶斯单侧尾部面积概率p = 0.002)。这意味着因果效应在统计上是显著的。

总结用CausalImpact分析因果关系

当然，这篇文章是一个5分钟的简短介绍，向大家介绍如何使用贝叶斯结构时间序列模型进行营销因果归因，如何使用R的CausalImpact包。

R包十分丰富，比我在这里讨论的内容更多，所以它和网上的其他一些示例非常值得阅读。然而，对于许多想要了解他们是否在正确的地方花钱的营销人员来说，这个软件包是一个很好的起点，不需要大量的时间序列分析和贝叶斯统计知识。实际上我想说，它的使用最具挑战性的方面不是数学、语法或函数参数的选择，而是选择不太可能受到所研究的干预措施影响的适当时间序列。

此外，你还可能同时在不同的媒体、不同的人口统计数据和不同的地区进行一系列的营销活动。当然，这将使你的数据分析比这里给出的简单示例更加复杂。然而，尽管创建适当的数据集可能会带来更多挑战，但之后的分析可能非常简单。

如果你想积累行业经验、数据科学项目经验，收获理想offer，那就千万不要错过MarTechApe的宝藏项目《营销组合建模企业级实战训练营》，一个专门培养优秀数据分析师/数据科学家的企业级别实战项目，拥有企业真实数据（改编）与行业标准流程。项目经历可成为简历上的履历！

训练营的学员收获了:

真正意义上的“用数据和模型解决营销中最重要的问题”的经历。
熟练掌握SQL、R、Tableau等时下最流行的数据处理语言，并用这些技能解决实际问题。
大大提高Media/Advertising Industry的商业意识，熟悉不同媒介渠道的广告活动对不同商业指标的不同回报率（ROI）与有效性（Effectiveness），学会用“营销效果”的视角看待营销活动，理解各大公司市场营销部门、消费者洞察部门的痛点。
跳出学校作业的框架，上手真正商业情境中、实际工作中的实战案例。让校园与实际工作无缝衔接。将学到的Analytics思维方式泛化到其他应用场景，面对Case Study建立系统性解决思路。
提升项目演示Presentation技能，学会如何从原始数据中挖掘具有意义的故事。为客户解决实际问题，提高Business KPI。
完成项目后，辅导老师将帮助你利用这一个惊艳的项目背景打造最引人注目的简历；所有学员获得内推机会，优秀学员获得一对一面试辅导。