从《复仇者联盟》谈数据统计分析中的一些思路

冯国双 MarTechCareer


| 本文作者:冯国双,著有《白话统计》一书

| 来源:小白学统计(ID: stats_for_dummy)


编者按:《复仇者联盟4》率先在国内上映,所有社交网站的朋友、网友、公号几乎都在自发宣传。北美这边也是苦等了一个星期终于在这个周五迎来了这场“终局之战”。本人虽不算资深漫威粉,但也一直有在默默关注漫威系列的各种电影。作为一部宇宙级超级大IP,可以说漫威发展这么多年,如今在各方面都能做到足够出色。今天,我们借着这股超强飓风,通过拿漫威的角色、作品举例,来谈一下统计分析中的一些基本问题和思路


01

熟悉漫威的朋友应该都知道,《复联》铺的很大,尤其是《复联3》,包容了以往的大多数漫威英雄,《绿巨人》2部、《美队》三部曲、《钢铁侠》三部曲、《雷神》三部曲,另外,《银河护卫队》、《奇异博士》、《蚁人》、《黑豹》、《蜘蛛侠》都登了场。


(Credit to Marvel Studios) 

在科研论文写作中,有一个流行的比喻,写文章就是在讲故事,如何把你的故事讲好很重要。其实数据分析亦是如此,从你拿到数据,到最后结果出来,就是一个讲故事的过程基于数据最终获得的模型,就是你的故事,向其他人揭示了数据的故事。


在建模过程中,无非就是数据和变量。那么,在这个讲故事的过程中,数据和变量起了什么作用呢?一个好的模型,每一个数据和变量都应该帮助我们了解这个故事。比如《复联》的故事,复联是个很大的概念,里面每个人都应该对故事有一定帮助和了解,否则这个人物的存在就没有意义。同样,如果一个变量对模型构建没有帮助,那这个变量可能就用处不大。所谓没有帮助,那就是这个变量不影响你的模型构建,比如你要编制一个反映抑郁的量表,如果量表中有一个问题,所有人的选择都是3,那这就是一个没有意义的问题,可以删掉,因为不管是抑郁或非抑郁,回答的结果都一样。专业上来说,这叫做变异为0,或者没有变异。


比如《钢铁侠3》中,国内剪辑版加入了某范和某王演员,对剧情推动一点作用都没有,换句话说,有没有这两个人丝毫不影响剧情,所以这两个人就是无意义的变量,完全可以删除。所以除了中国外,其他任何版本的电影中,都没有这两个人的身影,因为导演也很清楚,加入这两个人纯粹是为了讨好中国观众,如果把这一版本放到其他国家肯定会拉低票房(事实上,中国观众也根本不买账)。


(Credit to hypable.com)

所以,其实我们说筛选危险因素,就是为了把那些对结果没有影响的变量去除,这样才能得到一个简洁、实用的模型,大家看起来才会赏心悦目。不是说变量越多越好。


02

在电影发展的过程中,不知道大家有没有注意到一个现象,各个演员是相互客串的。比如《美队2》不是美队一个人在战斗,寡姐一直陪在他身边,偶尔还调调情。再比如《雷神3》,绿巨人也出现在里面,动不动跟雷神来点嘴仗。为什么要这么安排,因为可以增加票房。比如,雷神单独的电影可能票房为1亿,绿巨人单独电影的票房也为1亿,如果两个人同时出现在同一部电影中,可能票房会达到3亿。


这跟数据分析又有什么关系呢?专业来说,这就叫做交互效应分析。有时往往一个变量可能没有意义,而如果加入另外一个变量,二者如果有交互效应,那就会产生1+1>2的效果(当然,不排除1+1<2的效果)。比如分析吸烟和饮酒对胃癌的影响,可能单独任何一个因素都没有统计学意义,但是如果二者做一个交互效应分析,结果发现统计学意义显著。同时吸烟和饮酒的人,可能发生胃癌的几率远远大于单独吸烟或单独饮酒的人。


交互效应的分析在药物研究中很常见,比如研究同时服用两种药有没有交互效应。但要注意,即使服用两种药的效果大于服用一种药的效果,这不见得一定有交互效应,因为理论上,两种药就应该比一种药好。交互效应是指额外产生的效应。如1+1产生了2.5的效果,那么多出来的0.5才是交互效应,而不是2.5。不少文章经常说,我两个因素合起来产生了大于1个因素的效果,我有交互效应。根本不是这么回事,两个因素本来就应该比一个因素效果不同,但要看是不是比两个因素加起来的正常效应多。


(credit to @aleMin2 from weheartit.com)


03

《复联》系列包含的人物很多,然而主要的几位大佬或者创始者也就那么几个人,如美队、钢铁侠、雷神、绿巨人等。总的来说,目前所有这系列的电影,都在铺开一个“漫威世界”,最终指向大boss灭霸。如果有的数据偏离较远,很可能就会影响整个系列的发展或故事性。所以大家可以看到,几乎每一部电影后面的彩蛋,都会跟其他漫威相关故事多少有点联系。如果其中有一部电影完全在讲述自己的故事,那他可能跟所有其他故事都不同。比如《奇异博士》,其实就偏离较远,几乎跟其他电影都没什么关联(但在《复联3》中可以看到,奇异博士也是一个重要的角色存在)。


在这数据中,我们可以称之为异常点分析。理论上,一份好的数据,每一个数据点都应该有差不多的贡献,然后大家一起形成一个好的模型。如果数据中发现个别数据点与其他数据点偏离较大,这就叫做异常点。发现有异常点且影响了模型的构建,这时候如果你还非要把它保留在模型中,而且硬称这一异常点的故事与其他数据点的故事是一样的,很可能会影响你整个的故事性,甚至有可能会把整个故事性拉偏。



04

在《复联3》中,出场的漫威英雄多达60多人,一起对抗超级大Boss灭霸(虽然一半最后都被一个响指扑街了)。大家会发现,这些超级英雄几乎每个人的技能各不相同。比如美队有战斗经验和领导天赋、钢铁侠最大的技能跟蝙蝠侠一样:rich、雷神能召唤雷电、蜘蛛侠飞檐走壁、蚁人可大可小、冬兵擅长搞破坏、绿巨人力大无穷、绯红女巫意念控制,等等。这样才能达到一个最佳效果,如果大家的技能差不多,就没什么意思了,而且容易起内讧,比如有两个绿巨人,那就很麻烦,他们会整天打架。所以当绿巨人和神奇四侠中的石头人在一起时,基本的打招呼方式就是干一架。因为他俩都差不多。



在数据分析中,我们把拥有同样技能的这种情况称为共线性。如果两个变量的相关性太强,对结局的影响也差不多,那这时候把这两个变量都放在模型中,反而会影响模型的稳定性。比如同时分析身高、体重对血压的影响,那很可能身高和体重都变得无意义了。这就像前面说的,如果只有一个绿巨人,他能发挥90%的能力,如果团队中再加入一个石头人,那他反而只能发挥30%的能力了,都去内耗去了。就像我们古代说的“两个和尚挑水喝”。所以做影响因素分析时要注意,一定要保证变量之间大致独立,才能建立一个最优的模型。只有每个人大致互补,才是一个更好的组合。


所以,其实任何地方都有统计学的身影,只要稍微留点心就能发现各种统计学相关的事件。大家不妨也关注一下身边的统计学事件吧。


(毫无剧透嫌疑,我是不是很棒棒哒~)


关于MarTechApe

MarTechApe是一个来自纽约、专注MarTech领域的知识分享|技能学习|求职服务的终身学习平台。我们提供最专业的Marketing Technology课程。


    已同步到看一看

    发送中