美国总统大选民意调查到底是怎么做的？

原创：MarTechApe

今天是美国总统大选日，各州的投票结果将从美东时间今晚7点开始相继公布。各大媒体也都在争相分析下一届总统将花落谁家。尽管社交媒体上大家都对民意调查的结果非常上心，但却很少有人关心各个调查机构使用的调查方法。

回想四年前的总统大选，几乎所有的主流民意调查结果都显示希拉里具有更大获胜可能性，然而真正的结果却出人意料。在所有的调查机构中，只有Trafalgar Group这一家预测特朗普获胜。那他们是如何预测正确的呢？两种预测结果的背后，是调查方法的不同吗？

大选民意调查，说白了就是一种问卷调查方法，但它又有特殊之处：要在美国全国人民中抽样调查，跨越所有种族、年龄段、性别、宗教、党派、肤色，然后由这个抽样结果来推算出更大范围的人们将如何投票，最后按照总统大选的计票规则（各州独立计算、过半方赢者通吃）来计算出哪位候选人将获胜。在这个过程中的每一步都问题重重、没那么简单。

那么总统大选民意调查到底是怎么做的？什么是民调中的社会期许偏差？到底是什么原因解释了民意调查经常“失准” ？

今天这篇文章，我们就来看看美国的总统大选民意调查背后的数据分析问题吧！

时间倒退到1997年。在30年前，互联网没有现在如此普及，也没有caller ID这种东西。在当时，民意调查是用电话调查进行的。一份全国性的抽样需要800个有效回答者，这往往意味着2000-2500通电话需要拨出（回答率大概在40%左右）。而今天，同样800份有效问卷，则需要拨出7500-9000通电话（回答率低于10%）。越来越低的回答率也造成了“政治民调”这一行业的行业危机，因为回答率越低首先意味着调查成本越高，其次更严重的问题是，它还意味着你的样本不一定客观代表了你想要调查的人群总体。

你可能会问，800人就能代表一个国家的全体民众吗？800会不会太少了？

但是实际上，如果你可以做到真正的随机抽样，那么800人足以推算出全美的民意了。想象一下：一部分美国人会去投票给特朗普，我们虽然无法观测到总体的值，但我们可以通过一小群人去估算出投票给特朗普的人占总体投票人数的比例。但问题在于，这个“一小群人”是否是真正随机抽样选出来的？

2012年总统大选年时，奥巴马在他和罗姆尼的第一轮总统辩论中表现极其糟糕，在这场辩论后，民主派选民变得不太愿意接受民意调查，因为他们不想讨论政治，而共和派选民就非常愿意接受民意调查。于是，民意调查结果就向罗姆尼发生了倾斜，可是他的实际支持率却并没有上升，最后结果是奥巴马打败了罗姆尼获得连任。这就是样本误差导致的调查结果失准。

为了尽可能达到真正的随机，电话调查采用的方法是随机拨号系统。由电脑使用指定的区号（前三位）和供应商号（中间三位），然后再随机产生最后四位数字，这样组成了一些列电话号码。如果民调机构想要触达某一个特定人群，比如某个种族或者职业的人，他们也可以通过购买电话号码，然后从中随机选择一些号码，来进行调查。

现在，将近一半的美国家庭只用手机不用座机，所以民调机构在样本中就需要包含手机号。但是由于联邦法规要求，在电话调查中，手机号必须得由人工拨打，不允许用自动拨号机，因此大大提高了调查成本。而且行业里发现，一个手机号码得平均拨打7次，才能获得一次成功的调查。可见，为了获得真正的随机抽样，民调机构在调查中花的力气可是比30年前大了很多呢！可是尽管如此，回答率还是差强人意，尤其是在年轻人、西班牙语人群、福音派（基督教新教的一个新兴派别）、还有非洲裔群体中。

其实，低回答率还不是最大的问题，只要接电话的人和不接电话的人没有系统性差别。什么是系统性差别呢？

比如，老年人整体比年轻人更可能接电话。那我们的样本中就很可能老年人比年轻人多，那么我们的调查结果就不能很好地代表年轻人的态度。当调查回答率只有10%的时候，我们就很难判断那些接电话的人和不接电话的人到底有没有所谓的系统性差别了。如果这两拨人是非常不同的，那么我们的样本就是有偏差的，那结果当然就不对啦。

为了纠正这种样本上的偏差，我们可以用加权的方法。比如，最简单的加权就是：如果样本里只有6%的参与者是非裔美国人，但是全美有12%非裔美国人，那么我们就可以用加权的方法，也就是在调查结果中把非裔美国人的回答计算两次。当使用此类的加权方法时，那些已知的人口学因素（比如种族、年龄、性别）就不是太大的问题了。但这种方法也有很多问题，其中之一就是，你依然无法确定你那6%的非裔美国人很好地代表了全国12%的非裔美国人总体。为什么呢？

这里我们其实举拉美裔美国人的例子更容易理解。比如，绝大多数政治民意调查都是用英语进行的（为了避免翻译中的语义丢失问题，当然也是为了省钱），但是有73%的拉美裔在家里其实是说西班牙语的，所以很可能那些成功接受调查的拉美裔是一些英语很好的人，而他们并不能很好地代表全体拉美裔。

而且，到底什么因素应该被加权呢？在这点争议也很大。如果一份调查中民主派人士的占比较小，那么他们的结果应该被加权吗？像这类的决策其实是非常人为的。那这就给了很多民调机构一些操控调查结果的空间了。民调机构为什么要操控民调结果呢？有可能是为了党派之争的目的，也可能是为了防止自己的结果离其他主流民调机构的结果太远。因为现在非常流行取多次调查的平均值，所以有些调查员就对结果中的异常值非常紧张，导致他们策略性地加权他们的数据来让结果更接近其他调查的平均数。在有些时候，他们还会选择不公布那些看起来奇怪的结果。这就无法反映出民众的真正态度了。

唉，电话调查引发了这么多问题，又是低回答率、又是系统性偏差，就连加权也解决不了问题。那如果我们在网上做调查呢？能解决问题吗？

线上调查当然更便宜更快捷，它解决了电话调查的高成本问题（人工费高，记得刚才说过，拨打手机号必须得人工、不能自动吗？），但是线上调查也引发了其他问题：首先，16%的美国人不用互联网，那么在统计结果时就要考虑到加权。其次，即使搞定了加权，仍有研究发现线上调查的抽样会过度代表男性和失业者。这是因为线上调查要求人们上线，而“失业的男人”更喜欢且更有时间去填写问卷去表达他们的政治观点。这也解释了为什么特朗普的支持率在线上调查中比电话调查中更高。

以上说的其实都是针对民调中“能不能触及到有代表性的样本”、“能不能随机抽样”的问题，这些问题相对于2016年的总统大选民意调查来说，都算是小问题了。因为2016年，我们第一次遇到了“选民在调查中不说实话”的问题。

天呐！什么？受访者居然不说实话，那还做什么调查！？

2016总统大选年，几乎所有的民调都显示希拉里会获胜。直到特朗普当上了总统，人们才反应过来，民调中，被调查者不愿意承认自己会给特朗普投票。为什么不愿承认？因为——社会期许偏差（social desirability bias）。

在社会科学中，社会期许误差指的是：人们更倾向于向他人展现正面形象，所以在回答问题时，更倾向于申报“良好行为”来符合社会的期望。在当主流媒体、明星、还有其他权威人士都公开批判特朗普是一个白人至上主义者、一个潜在的独裁者、一个丑角、一个疯子时，在这样的环境下，人们就不敢对电话对面的陌生人承认自己是特朗普的支持者了。这也就是为什么大选民调的结果都显示特朗普的支持率比希拉里低。

然而，当时只有一家叫做Trafalgar Group的民调机构，公开宣布他们预测特朗普会当选总统。Robert Cahaly是这家公司的首席调查员，他认为“人们不像他们说的那样”。

他们为什么会有不同于主流的预测呢？因为他用了一个很聪明的方法来减少社会期许偏差的影响：

不像其他的调查那样只问”你会支持谁”，Robert在调查中会同时问”你会支持谁”以及“你觉得你的邻居会支持谁”。这样，即使人们羞于承认自己支持特朗普，但也不会为邻居撒谎。

通过这个“声东击西”的方法，他在四年前预测出了特朗普会当选。今年，他用同样的方法依然预测出特朗普会当选。

今年的民调到底还会不会失准呢？让我们拭目以待！