如何用数据思维解读”月饼“搜索量?

如何用数据思维解读”月饼“搜索量?
大笑与小胖 MarTechCareer


年年岁岁花相似 岁岁年年饼不同。又到了一年一度的中(月)秋(饼)节。每年中秋节我们都少不了赏月、礼盒PK、和做数据分析(。。什么鬼?)


今天,想借月饼之名,跟大家聊聊数据分析的思维。


在做分析之前,想给大家介绍一个非常实用的,免费的在线工具:Google Trends谷歌搜索指数。它是Google推出的一款基于搜索日志分析的应用产品,通过分析Google全球数以十亿计的搜索结果,告诉用户某一搜索关键词各个时间段内在Google被搜索的频率指数和相关统计数据。


通过Google Trends,用户可以比较全世界对某一个关键词或主题的关注度,可以通过它查看某个关键词在一定时间范围内的受欢迎程度和搜索趋势。而这些数据指标主要来自在谷歌搜索,谷歌购物,YouTube,谷歌新闻和谷歌图片。

通过Google Trends,让我们来看一下在过去的10年中,“月饼”一词在中国地区的搜索热度。



看到这幅图,你的第一反应是什么?你有什么疑问吗?


这里先说数据思维的第一点:


数据思维1:永远持怀疑的态度

这幅图让我产生两个疑问:

1. 为什么2011年“月饼”搜索热度最高?

2. 为什么2014年后“月饼”搜索量跟2014年前完全不在一个量级上?



1. 2011年到底因何月饼一词如此热搜呢?


要想知道为什么,我们就得先了解Context——当时发生了什么。Google Trends有一个优点就是有Related Queries(相关词条搜索)——搜索过月饼这个词条的用户,还搜索过哪些词。


原来,在2011年,福建师范大学食堂推出了一道月饼炒辣椒,从此,月饼界风云突变,五仁月饼霸主地位岌岌可危,小龙虾月饼、鲜肉榨菜月饼、巧克力香辣牛肉月饼、老坛酸菜月饼异军突起,百家争鸣。



但其实相比月饼炒辣椒,最让我不能忍受的是香菜月饼。。。你最不能忍受哪种口味的月饼?



2. 为什么2014年后“月饼”搜索量跟2014年前完全不在一个量级上?

从2008到2011年,“月饼”一词的搜索指数基本保持在60~100之间。但是从2014年开始,搜索指标骤降为到25以下,并在之后基本保持在这个水平。这是为什么呢?难道中国人民对月饼的热情突然降低了?


这里就不得不说到数据思维的第2点:


数据思维2:了解你的数据源的局限

Google Trends作为一个可靠的Public Data source(公共数据源),很多美国的品牌都会把它作为一个衡量话题热度的参考。但是如果是中文话题或中国的话题,在解读Google Trends的数据趋势(尤其是时间序列)时,一定要考虑到中国地区用户是否可以无限制地使用Google产品的问题。2010年谷歌宣布退出中国市场,并将大陆服务重定向到香港。这也是为什么2011年-2013年间,“月饼”的谷歌搜索指数并没有降低。但到了2014年,中国开始完全隔断Google的服务,大家无法登陆Google进行搜索,当然搜索指数就骤降了。


让我们换一个搜索词,看看是不是这个“2014效应”也产生在其他中文搜索话题上。我们选择另一个季节性话题(也就是每年的某个固定时刻都会产生的话题,而不是一次性事件):“春节” ——

在“春节”搜索指标图上,我们也能轻易看到从2014年开始,搜索指标骤降的现象。那么,这就基本上validate了我们对“月饼”趋势图的解释。(这里考一下大家,为什么我们要选用季节性话题而不是一次性事件?欢迎留言回答)


那既然Google Trends有这样一个问题,是不是意味着2014年之后的数据就没有任何参考意义了?这就要说到数据思维的第三点:


数据思维3:了解变量的算法

Google Trends Index到底是怎么计算出来的呢?


首先要明确的是,Google Trends Index首先是个相对的指数,而不是绝对的实际搜索量(actual search volume)。


Google Trends Index的计算原理是,先找出“月饼”在一段时间内最高的实际搜索量(假设是50万),然后将这段时间的每一天的实际搜索量都除以这个50万,最后再乘以100,就得到了最终的Index。这个过程和我们常见的“标准化”的过程是一样的。也因此,搜索量最高的那天的Index会是100(因为是自己除以自己再乘以100)。


对于这个计算方法来说,时间框架具有极其重要的意义。举个例子,假设你只关心3天的数据,这三天的实际搜索量分别是50,30,20。那Google Trends Index就会显示:100,60(即,30/50*100),40(即,20/50*100)。但如果你缩短时间框架,只关心这三天中的最后两天的数据:30和20,那你看到的Google Trends Index就会是:100(30/30*100)和67(20/30*100)。你发现这两天的Index就会和三天的Index不同,因为,在2天的时间框架中,最高实际搜索量变成了30,而不是之前的50了。


同样的道理,对于“月饼”这个例子,如果我们关心从2008到2018年的搜索趋势图,那就必须考虑到“2014效应"这个问题。但如果我们只看2014年以后的数据,并且只做2014-2018年的比较,并不拿这些年份与2014年之前的年份相比较,那这组数据就还是有意义的。



很多数据分析师,到了这一步就基本不再继续思考了。但如果你始终贯穿着我们的数据思维1——“永远持怀疑的态度”,你就会继续思考——2014年,Google在中国不能顺畅使用了之后,还有人能继续登陆Google搜索,产生了这些搜索指数,那这些人能代表广大中国的网民吗?他们是不是一批同质性教高的人群(比如,安装了VPN、经常访问国外网站、教育程度较高)?是不是有一大部分中国用户在其他搜索引擎上搜索了“月饼”(比如百度),但没有被我们捕捉到?这就是数据思维的第四点:


数据思维4:留意幸存者偏差


也就是说,你看到的数据只是能收集得到的数据,但很可能有一大波数据由于收集不到,所以你看不到。这个偏差会影响你从数据中得出的结论。


于是我们满怀希望地去了百度指数(百度指数是以百度海量网民行为数据为基础的数据分享平台),兴致勃勃地输入了“月饼" 。


结果看到了一片空白。。




那我们只能从数据思维5中聊以慰藉:底层基础是数据分析的前提,没有底层基础,一切白搭。。


好啦今天就说到这里了,大家快去吃月饼吧!但是小心卡路里哟!我昨天上午吃了一个冰皮,下午吃了一个莲蓉,晚上吃了一个奶黄。正当我心满意足准备睡觉时,有人给我发了这张图:




请问,我昨天相当于吃了多少个炸鸡腿?


对数据分析感兴趣的你,欢迎【点击阅读原文】前往我们的官网订阅数据分析类课程!

中秋特惠,全场7折哦!



点击"阅读原文"进入官网

    阅读原文
    Zhen Li