MarTechApe

View Original

少即是多,抽样的艺术

原创:MarTechApe

今这个世界是由数据科学驱动的。在生活的方方面面,时时刻刻,人们都在使用数据科学。它是机器学习,物联网,大数据等不可或缺的一部分。在数据科学华丽的表象下,统计才是真正的硬核驱动力。它是现代科技的核心。如果你善于运用统计,那么你比较容易做出明智的决策。但是如果你的统计知识运用的不到位,那么做出的决策可能会适得其反。

样本是统计的基本要素,它帮助数据科学家在进行分析时能够更轻松更有效率地得出结论。一些时候,处理大型数据集可能不容易实现,这就是样本这个概念发光发热的时候。

在进行实验、建立数据模型之前的第一步就是要设计你的样本。在设计抽样方法时,我们必须发挥创造力。如何去做呢,请继续阅读来了解统计学/数学是多么有趣!

大多数情况下,数据科学家只会把全部关注点放在算法、建模上,而忽略了诸如抽样的简单话题。这可能会导致非常严重的错误。所以在今天的文章中,我们将涉及以下部分:

  • 一个通过样本介绍自己的故事

  • 采样错误

  • 制作有效样本

  • 采样在数据科学领域的重要性

让我们从当前的Pandemic Coronavirus开始讲起。

image source: CNBC

新冠肺炎大流行的爆发使整个世界仿佛按了暂停键。至今我们仍然不知道如何应对这种流行病。

在2019年11月17日,出现了第一个受到了冠状病毒的感染的病例。医学专家认为该病例为肺炎,因为以前从未见过。该病毒传播迅速,在一个月内,感染了许多人。2019年12月31日,世卫组织获悉在中国湖北省武汉市发现了一系列原因不明的肺炎病例。现在,这种病例正在急剧增加。据世界卫生组织的数据,截止3/21的统计数字如下(现在的数据当然比3/21的时候大多了)。

世界卫生组织冠状病毒统计数据(至2020年3月21日)

在Coronavirus爆发的初始阶段,病例是很少的。任何人都可以轻松地单独分析案例。当病毒转化为大流行病时又会怎么样呢?当病例发生区域变大时,超出了我们分析个案的能力。那么在这种情况下我们该怎么办?

假如,我们向一位数据科学家寻求帮助,希望他可以帮我们找出新冠肺炎的死亡率。这位数据科学家要求收集300例确诊病例的数据。他还补充说:“这300个案例足以了解所有Coronavirus案例的情况。” 这300例病例是全世界总体受影响人群的样本。如果我们考虑所有234073例确诊病例(确诊总数)时,则这个样本将变成一个总体。因此,总体定义了特定案例的所有数据。但当我们以不同的视角去看待不同的问题时,样本和总体的概念可能会改变。这又是什么意思呢?往下看!

1. 样本和总体的相对概念

一组数据是样本还是总体取决于我们要解决的问题。比如,下图描绘了世界上已确诊的冠状病毒总案例数为234073(截止3/21)。如果我们想知道世界上是否有人受到了冠状病毒的影响,那么234073名冠状病毒感染者组成的组就是一个总体。因为受冠状病毒感染的人口总数为234073。但,如果我们想知道世界上是否有人受到了病毒的影响,则由234073人组成的人群就是一个样本。因为世界上有很多病毒,冠状病毒是其中之一。

从另一角度看样本和总体的关系

2. 采样误差:不同的样本可能有不同的结果

总体的每个对象或样本被称为一个单位或事件。抽样指的是从总体中随机或有选择性地选取样本元素。抽样对于最后的实验结果起着至关重要的作用,如果抽样流程的设计稍有差池,最后得出的结论可能会指向完全相反的结局,导致严重的后果。

让我们假设,两个已确认冠状病例的样本。

我们观察到两个不同样本的死亡率,如上所示。在每个样本中,我们得到不同的死亡率。我们想要预测的是总体的死亡率。那如何去衡量哪个样本更好呢?

什么是好的样本?好的样本可以代表总体结果。世卫组织估计,至2020年3月3日,死亡率为3.4%。假设这是我们总体死亡率的结果。

结果与样本结果略有不同。这称为采样误差。

根据这个定义,对于上述两个样本来说,我们可以计算样本误差。

第一个样本的误差为:E1 =(3.4–2.5)%= 0.9%

第二个样本的误差为:E2 =(3.4–3.00)%= 0.4%。

3. 寻找最优样本

成功的统计模型很大程度上取决于最佳抽样。在采样方面的创新能力越强,模型就准确性越高(因为样本越能代表总体)。

代表性样本与抽样误差

抽样误差越小时,说明这个样本越能代表总体。为此,我们需要随机选择样本。

现在,让我们以WNBA Player Stats Season 2016-17数据集作为示例。

假设我们需要找到最佳样本来计算球员的平均得分。让我们通过创造力发现最佳解决方法。以下是拿到样本的几种常见抽样方法

1.随机选取样本

在WNBA球员2016-17赛季统计数据集中有143名球员的数据。我们将随机抽取10个样本数据150次,以分析球员的平均得分。结果如下所示。

随机样本的散点图

但是仅仅用10个数据点的样本是无法具有代表性的。某些样本的平均得分高于或低于总体的平均得分,这会使我们计算出的平均值,被某个特殊的点拉高或拽低。我们需要尝试其他方法。

2. 增加随机样本的样本量

当我们增加样本量时,我们的样本将更具有代表性。让我们通过可视化对数据集有更直观的了解。

不同随机样本容量的散点图

当样本大小为100时,所有随机样本都高度代表数据集,并且样本容量的增加使随机样本更具代表性。这是采样时需要注意的。

3.分层抽样(Stratify)并从每个分层中选择数据

数据集中有5种类型的球员。如果我们观察2016-17赛季WNBA球员统计数据,会发现‘Pos'这一列,在这一列中会发现以下类型的球员。

['F' 'G/F' 'G' 'C' 'F/C']

  • F →Forward

  • G → Guard

  • C → Centre

  • G/F → Guard/Forward

  • F/C → Foward/Centre

如果我们使用随机抽样的话,可能会有这样一种结果:就是选择的样本无法涵盖以上5种类型的球员。这可能导致样本具有较低的代表性。我们可以对所有5种类型的球员进行分层。

每种类型球员的频率

然后从每一个类别中抽取相同数量的球员。比较推荐的方法是按照特定的比例在每一层中进行抽样。在这个例子中,五个类别的占比是(相对于143个玩家)为G→42%,F→23%,C→17%,G / F→10%,F / C→8%(大约)。假设我们希望样本大小为50。那么分层的比例样本包括:

  • G → 25

  • F → 8

  • C → 5

  • G/F →1

  • F/C →1

我们还可以尝试使用其他参数进行分层。最后选择分层效果最好的样本,以提供最理想的结果。

4.群集抽样 Cluster Sampling

有时,我们的数据集可能不像WNBA Player Stats Season 2016-17数据集那样规范。它可能是分布式的,或者很难收集。在这些情况下,群集抽样有助于更有效地分析数据。

例如处理冠状病毒病例。我们需要分析整个世界的数据。此外,没有中央数据处理中心可以让我们获取世界范围的数据。现在,需要从各个国家/地区的网站收集有关冠状病毒病例的数据并进行汇总。这个过程可能要花费几个月的时间。这是不切实际的。在这种情况下,需要将一个国家视为一个集群来随机选择一些国家。然后从那些随机选择的国家/地区收集数据。这种抽样类型称为群集抽样。

以上我们给出了一些抽样的方法。可是你也许会问如果直接使用总体做分析岂不是更好,为什么还需要抽样呢?

要回答这个问题,你可以假设自己是一家跨国公司的数据科学家,该公司拥有数十亿客户交易的数据库。你的老板要求根据交易找出客户类别。应用适当的抽样技术,你可以轻松地找到所需的结果。如果你直接去调用10亿客户的数据,你可能永远也无法给出你的答案。

在这个过程中,你可能还会遇到API使用受限的情况,并且需要为整个系统创建分析模型。在这些情况下,将不得不用抽样技术。

在很多情况下,数据科学中必须进行抽样。抽样是统计中一个巨大的话题,涉及范围非常广。抽样的问题不解决就好比是在不牢靠的地基上搭建大楼。如果你想要系统学习科学的实验方法,获得企业中用于解决商业问题的实验方法A/B测试的全方位培训,那么千万不要错过MarTechApe携手美国第一大家具电商Wayfair的高级商业分析专家共同开设的《A/B测试企业级实战项目》!利用疫情期间,系统地掌握企业级别的A/B测试,搭建真实的A/B测试分析,掌握A/B测试在企业落地的完整流程,全方位提高数据科学技能与商业意识。

在《A/B测试企业级实战训练营》中,你将获得:

  • 真枪实弹的A/B测试项目实操,真实数据+五大应用案例,从零学会A/B测试的里里外外!

  • 为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目,让你在面试时可以自信展示自己亲自做的案例,成功拿下offer!

  • 从0到100真实操作A/B测试项目的全套流程:数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示。

  • 经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程,以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法!

  • 深度学习A/B测试实战中常见的测试陷阱及避免方法。

  • 牢固掌握公司里A/B测试项目中的实际SQL应用,为A/B测试搭建数据库、清理数据、创建数据集。

  • 学会用Python自动化实现A/B测试,为你的老板提高100%的工作效率!

    接受系统的统计训练,打下坚实牢固的统计基础,彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。

  • 对互联网科技公司的深度剖析和指标介绍,让你自如面对各类面试考验!

  • 各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。

点击下方图片跳转课程页面,了解项目详情!

See this product in the original post