MarTechApe

View Original

如何理解新冠病毒死亡率3.4%?

几乎所有有关新冠病毒死亡案例的报道中都会出现“潜在症状(underlying symptoms)”的说法,BBC就在近期的报道中称一位有潜在健康问题的80岁男性因新冠病毒去世。

Source:BBC News

使用“潜在症状”这一说法的目的是减轻群众的恐惧。只要新闻报道中出现了“潜在症状”一词,读者们在快速浏览后往往会松一口气,认为没有潜在症状就与自己无关。但有些媒体会在报道中使用一些概率数据,并且不加以清楚的解释,公众会在错误理解之下加重恐惧,又或者掉以轻心。而如果媒体能够在报道这些概率时解释清楚,公众就能够正确认知某一件事对个体的风险。

Source:Google News

那么我们该如何正确看待报道中的各种百分比数字呢?让我们来了解一下跟概率相关的一些概念。

无条件概率与条件概率

在讨论真正的问题之前,我们先来快速回顾一下统计学上有关概率的概念。

假设我们要预测掷骰子时骰子落在数字6上的概率,我们想求:

P(骰子 = 6)

即“骰子等于6的概率”。 

现在,假设我们知道骰子肯定会落在大于3的数上,那么我们要预测骰子落在6上的概率。那么我们想知道:

P(骰子 = 6 | 骰子 > 3)

垂直线“ |”表示“给定条件”。

这两个方程式的区别在于,第一个方程式是无条件的,我们想在没有其他信息的情况下知道事件发生的可能性。第二个方程式是有条件的,我们想知道某一事件发生的可能性,并以(或“ 给定”)其他条件或事件为前提。

Source:Unsplash

贝叶斯定理

接下来是有关条件概率最重要的理论:贝叶斯定理(或贝叶斯定律)。

贝叶斯定理用于根据其他可用信息来计算或更新条件概率。公式为:

Source:Wikipedia

换句话说:给定某个事件B,事件A发生的概率等于给定事件A发生事件B的概率,再乘以事件A的概率,再除以事件B的概率。

Source:Google Sites

具体贝叶斯定理如何应用呢?让我们来看一个例子。

我们将A事件称为:冠状病毒死亡,并将B事件称为:未满65岁。

P(死于covid19,未满65岁)= P(死于65岁,死于covid)×P(死于covid)/ P(未满65岁)

我们用一些代数对其进行整理:

P(C | A <65)= P(A <65 | C)×P(C)/ P(A <65)

在这里,我们将C理解为死于covid,而将A视为某个年龄。

因此,考虑到新闻中发布的统计数据,让我们看看是否可以找到更相关的死亡风险。我们需要找到:

P(A <65 | C)——死于covid的不到65岁的概率。

P(C)——死于covid的(无条件)概率。

P(A <65)——低于65岁的(无条件)概率。

从研究和报告中我们知道,目前新冠肺炎的估计死亡率为3.4%,因此

P(C)= 0.034

根据研究可知,8%的人口年龄在65岁以上,因此

P(A <65)= 0.92

现在最困难的部分是计算由于covid死亡而低于65岁的概率。现在我们必须要转向原始数据。数据无法告诉我们确切的死亡率P(C | A <65),因为我们不知道谁感染了病毒,谁没有感染,即存在许多未报告的病例。(这也是P(C)的问题,但在本例中可以忽略)。但是,数据可以准确地告诉我们P(A <65 | C)。我们将使用中国疾病预防控制中心的最新研究数据。

Source:China CDC Weekly

根据这项研究,

P(A <65 | C)= 0.19

这个数字实际上是针对P(A <60 | C),但不影响我们得出最后的结论。

总结以上数据,我们可以得出

P(C | A <65)= 0.19×0.034 / 0.92 = 0.007 = 0.7%。

因此,如果你的年龄在65岁以下,那么根据我们的计算,死于COVID-19的可能性实际上约为0.7%。

真正的概率

前文展示的计算与读者实际相关的数据并不困难。上面的示例仅与92%的年龄低于65岁的人口相关,但其他8%同样重要。在这个例子中,我们以年龄作为计算死亡概率的条件,但是健康状况也同样重要。即便没有潜在的健康问题,因covid死亡的可能性实际上也有0.9%。当然,在理想情况下,我们可以建立一个考虑年龄,基本健康状况以及其他相关背景信息的统计模型,但这已超过了本文的讨论范畴。

尽管我们了解真实的统计数据,但在新闻中仍然反复出现看似与己无关的标题。为了更负责地报道真实的概率,我们能做些什么呢?

媒体该如何负责地报道统计概率

  • 对于读者:了解无条件概率代表了什么。当媒体报道死亡率为3.4%时,实际上是在说所有感染COVID-19的人之中3.4%的人去世了。这并不意味着每100个人中会有3个人死亡。无条件的概率可以告诉我们过去发生的事件,也可以告诉我们简单的统计信息,但它忽略了重要的条件和信息。无条件概率不能用于对未来的预测。

  • 对于媒体:停止在报道中不加说明地直接使用无条件概率。相反,媒体应该以这种形式报道:“在感染COVID-19的65岁以下人群中,死亡的比例不到1%”或“在没有基本健康状况的人群中,有不到1%的人群因COVID-19死亡”。

  • 同样对于媒体:如果你坚持要继续报道无条件概率,必须准确地强调它们的作用和局限性。强调过去时态,而不是未来时态。“ 3.4%的人口将要死亡”即是一种不负责任的说法。相反,“3.4%的已报告病例已死亡,但这一数字取决于个人情况”才是更合理的说法。

概率论的知识在A/B测试中非常重要,几乎每一位数据分析师都要懂A/B测试。理解且会运用这些统计概率分析方法是做好A/B测试,成为一名数据分析师的基本。而在许多互联网科技公司的数据岗面试中,面试官特别喜欢问A/B测试的问题来考察和筛选掉那些简历很好看却没有相关经历的面试者。

面试官很喜欢问你的实操经验以及你对虚拟情景题的反应。尤其关注你如何应对A/B测试实验过程中容易遇到的各种统计陷阱,因此你不仅要理解这些统计学概率论的知识,更要知道在实际的A/B测试中如何选择、设计、计算和解读它们。只有真正做过A/B测试的人才知道如何应对工作中常常不完美的实验条件,从而提出合理的洞察和方案以解决实际的商业问题。

为了满足大家迫切需要A/B测试实操经验的需求,MarTechApe联合拥有多年A/B测试经验及新人带领经验的美国著名电商Wayfair高级商业分析专家推出《A/B测试实操训练营》第二期用一段真实的A/B测试项目经历为你的能力背书,让你在面试和工作中脱颖而出

现在就让我们来看一看项目内容!

1 你将获得

  • 真枪实弹的A/B测试项目实操,真实数据+五大应用案例,从零学会A/B测试的里里外外!

  • 为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目,让你在面试时可以自信展示自己亲自做的案例,成功拿下offer!

  • 从0到100真实操作A/B测试项目的全套流程:数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示。

  • 经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程,以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法!

  • 深度学习A/B测试实战中常见的测试陷阱及避免方法。

  • 牢固掌握公司里A/B测试项目中的实际SQL应用,为A/B测试搭建数据库、清理数据、创建数据集。

  • 学会用Python自动化实现A/B测试,为你的老板提高100%的工作效率!

    接受系统的统计训练,打下坚实牢固的统计基础,彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。

  • 对互联网科技公司的深度剖析和指标介绍,让你自如面对各类面试考验!

  • 各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。

2 训练营老师介绍

Emma老师

  • 美国知名电商Wayfair高级商业分析专家

  • 拥有多年电商A/B测试实战经验,及新人教授经验

  • 精通Advanced SQL, Python等数据分析工具

  • 设计推出的A/B测试,为公司带来上千万美元的收入

3 训练营课程内容

  • 整个Bootcamp历时7周,每周3小时课程,共计21小时课时。

  • 周末Online Live授课,课后完成老师布置的作业,助教团队在班级群内随时答疑,直播录像永久回放。

  • 五大课程模块:

    • A/B测试商业训练(案例、变量设计、测试计划)

    • A/B测试数据技能训练(数据源概况、SQL数据库建立、Python自动化分析)

    • A/B测试实验设计训练(A/B测试 vs 准实验、实验步骤、真实商业环境中的实验挑战)

    • A/B测试统计训练(统计分析、深度解析)

    • A/B测试面试训练

  • 课程内容涵盖了A/B测试在各大互联网科技公司中的完整工作流程

    • A/B测试统计基础与应用场景

    • A/B测试实验设计

    • A/B测试假设检验、变量选择、流量计算与实验周期计算

    • A/B测试各类应用场景中的实验变体与前后测实战分析

    • 用SQL与Python完成A/B测试项目实战

    • A/B测试结果解读与高阶统计

    • 结果展示

  • 每位学员将有一套亲自做的A/B测试成果作品

  • 每位学员获得A/B测试面试真题解题辅导

  • 结课后,每位学员获得提升简历的Project Experience完美描述,所有学员获得内推机会!

1. A/B测试商业训练

  • 了解A/B测试在顶流科技公司中的各类应用场景

  • 了解A/B测试适用的商业问题与它的局限

  • 了解科技公司产品团队如何使用A/B测试

  • 面对商业问题,如何设计有效的假设?

  • 如何制定A/B测试的实验计划与执行框架?

2. A/B测试数据技能

  • 搭建一个真实的A/B测试实验数据库

  • 了解A/B测试中常面临的数据问题

  • 用SQL对数据进行清洗与转制,完成样本选取、组别分配、变量选取等实验步骤,为A/B测试做好数据准备

  • 用Python搭建A/B测试分析流程

学员在项目中重点使用SQL与Python,全方位了解A/B测试中涉及的数据库搭建、样本选取、实验组与测试组分配、变量选取等数据分析步骤。并且充分掌握用Python搭建A/B测试结果分析流程,实现A/B测试自动化,对真实工作中的A/B测试分析了如指掌。简而言之,项目后,你不仅将牢固掌握SQL与Python等最热门的数据分析软件,还将成为真正的A/B测试技术流,完全掌握A/B测试这项数据分析工作中最重要的技能。

3. A/B测试实验设计

  • 充分了解A/B测试的实验步骤

  • 设立零假设与被择假设

  • 确认实验指标,设计实验变量

  • 根据指标类型确认统计检验方法

  • 估算样本量,确定实验周期

  • 置信区间与统计功效

  • A/B测试中的各类偏差

  • 样本量不够或其他实验条件不满足时的实验设计

  • 了解准实验与A/B测试的应用区别

  • 为项目案例设计A/B测试实验

学员在项目中将透彻学习实验方法与实验设计。在这个环节中,将研究如何制定实验方案,以提高实验效率,缩小随机误差的影响,并使实验结果能有效地进行统计分析。学习在工作场景中如何用A/B测试等实验来提高用户激活/活跃/留存等关键的产品指标,提升产品功能表现,真正理解A/B测试的商业价值与业务地位。

4. A/B测试统计训练

  • 抽样技术

  • 样本量与统计分布

  • 统计测试的不同类型和指标(T测试, Z测试, Z分数, P值)

  • 统计显著性

  • 统计功效

  • 置信区间

  • 假设检验的两类错误等

学员在项目中将系统学习数理统计方法,为各类工作实战中的实验方法打下牢固的理论基础。学员所学习到的统计并不只适用于A/B测试,其实是所有数据分析方法的统计基础。只有为自己增添坚实的统计背景才能在各类分析方法中游刃有余。

5. A/B测试面试训练

在每周的课程后,所有学员将获得A/B测试面试训练。老师将对各大互联网、科技公司A/B测试面试题给出解题步骤示范与详细解析。确保课堂所学知识可以灵活应用到各类面试场景,助你自信面对A/B测试的所有面试考验!

4 报名方式

现在项目第二期已开始接受预报名。预报名期间可享受项目最低价999美元,限额5名,报满即止!

扫描二维码,添加小助手为好友,回复“AB”,即可预先报名第二期《A/B测试实战训练营》:

今年的你,能否在困境中突出重围?取决于你是否下定决心投资自己,全方位提升能力,为自己增添被验证有效的宝藏项目经历!赶快报名吧!

本文来源:https://towardsdatascience.com/coronovarius-and-probability-the-media-must-learn-how-to-report-statistics-now-973ed2d52959