数据分析师必须掌握的10种统计方法 (1)
Glassdoor在《25个美国最好的工作》(25 Best Jobs in America)清单上将数据科学家列为榜首。
一听到“数据科学家”,可能很多人的第一反应是编程,但这里要纠正这个不太正确的观点:虽然编程能力对数据科学非常重要,但是数据科学和软件工程有很大的区别。数据科学家是编程、统计、商业意识的集合体。正如Josh Wills说的那样,“数据科学家是程序员中最懂统计的,是统计学家中最懂编程的“。我认识非常多的软件工程师在转向数据科学家的路上走得很艰难,因为他们没有充分理解统计理论。
而统计能力在现今的职场上已成为最重要的能力之一。不管你从事什么工作,已经不能否认整理、分析、合理化数据的重要性了。在海量的统计知识里,我认为有10个统计技能在商业应用中因其应用的广泛性而脱颖而出,因而这篇文章就是介绍这10种统计方法的。
1.线性回归
在统计中,线性回归是通过拟合因变量和自变量之间最佳的线性关系来预测一个目标变量的。最佳拟合是怎么找到的呢?是通过找到实际观测值和预测值的最小加和来确定的。直观上说,就是实际值的曲线和预测值的曲线越贴合越好。
两个主要的线性回归类型是简单线性回归和多元线性回归。简单线性回归就是用一个自变量来预测一个因变量。多元线性回归是用多于一个自变量来预测因变量。比如,我可以用我生活中的三个变量——过去三年中我每月的话费、每月收入、每月旅游次数——来回答下面的问题:
我明年的每月消费将会是?
什么因素更重要地决定了我的每月消费(每月收入还是每月旅行的次数)
每月收入和旅行次数和我的每月消费呈现怎样的相关关系?
2.分类
分类(classification)是一种数据挖掘技术,它可以将一组数据分成不同的类别。分类有时也被称为决策树。两种主要的分类技术是:逻辑回归(Logistic Regression)和判别分析(Discriminant Analysis)
当因变量是二分的(比如,转化,只有转化了vs没转化两个值)时候,逻辑回归就是一个正确的回归方法来分析数据。就像所有的回归分析那样,逻辑回归是一个预测分析。逻辑回归是用来描述数据和解释一个二分的因变量和一个或多个定类变量、定序变量、定距变量和定比变量的关系。
自变量类型
定类变量(nominal variable):比如广告类别这个变量的值可以是展示广告、搜索广告、社交广告这几个类型
定序变量(ordinal variable):也就是变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,比如产品评分。
定距变量(interval variable):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算但不能做乘除运算。比如,温度。
定比变量(ratio variable):既有测量单位,也有绝对零点,是数据类别里可以做最多运算的数据类型。比如:广告曝光数、网站流量。
逻辑回归可以解决的问题包括:
体重每超重一磅和每天多吸一盒烟会引起肺癌患病几率怎样的变化?
卡路里摄入量、脂肪摄入量、年龄是否对心脏病有影响?
在判别分析中,按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量数据确定判别函数中的待定系数,并计算判别指标。然后根据所测量到的特征值判别新样本/观测值应该归属到哪个类别。判别分析通常都要设法建立一个判别函数,然后利用此函数来进行批判,判别函数主要有两种,即线性判别函数(Linear Discriminant Function)和典则判别函数(Canonical Discriminate Function)。
在营销分析中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户;或是电视观众和非电视观众)找出相应处理的区别特性。在判别分析中,因变量为定类变量(nominal variable),有多少类别就有多少类别处理组;自变量通常为连续变量(可度量数据)。通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显著、判断哪些自变量对组间差异贡献最大、评估分类的程度、根据自变量的值将样本/观测值归类。
3. 重复抽样方法
重复抽样(Resampling)是一种指从原始数据样本中重复提取样本的方法。通常被用来解决机器学习中的不平衡分类问题(即某一类别的观测样本的数量显著少于其他类别,尤其在诸如银行欺诈、客户终止续订服务等异常检测中是非常严重的问题)。重复抽样属于统计推断中的一种非参数方法。换句话说,重复抽样方法不涉及利用一般的统计概率分布表(如下图)来计算大概的p概率值。
重复抽样会基于实际数据来生成一个独特的抽样分布。它使用实验性方法而不是分析性的方法来生成这个独特的抽样分布。由于重复抽样是基于研究人员得来数据的所有可能结果的无偏样本,因此它产生的也是无偏估计。为了理解重复抽样的概念,你应该先了解自举法(Bootstrapping)和交叉验证(Cross-Validation)这两个术语:
自举法(Bootstrapping)应用广泛,例如在验证一个预测模型的表现、集成方法、估计模型的偏差和方差。这是一种特殊的交叉验证方法,通常用于数据量较小的情况下。其工作原理是通过从原始数据中抽出再放回,这样重复采集进行多次抽样形成训练集,然后把”没被选择“的数据点作为测试集。我们可以进行多次这样的操作并计算出平均误差分数来评判我们模型的性能。
集成方法:是一种将多种机器学习技术整合成一个预测模型,以减少方差、偏差或提高预测,获得比单个机器学习技术更好的学习效果的机器学习方法。
另一方面,通常的交叉验证(Cross-validation)有k折交叉验证,通过将数据随机分成k份,其中的k-1个部分作为我们的训练集,并使用剩下来的一个集合作为我们的测试集。将这种操作重复进行k轮。最后,我们将k个分数的平均值作为我们模型表现的估计。
通常对于线性模型来说,普通最小二乘法(ordinary least square regression,OLS regression)是考虑模型与实际结果拟合程度的主要标准。接下来两种是其它可以为线性模型的拟合提供更好的预测精确度和模型可解释性的替代方法。
4. 子集选择
这种方法指从p个预测变量中挑选出与相应变量相关的变量形成子集,在对缩减后的变量集合使用最小二乘法。
最优子集选择:对p个预测变量的所有可能组合分别使用普通最小二乘法进行拟合,最后在所有可能模型中选择一个最优模型。该算法分为两个阶段:(1)拟合包含k个预测变量组合的所有模型。(2)使用交叉验证预测误差来选择单个模型。使用测试集或验证集的误差非常重要,而不是训练集的误差来评估模型结果。因为RSS和R2会随着变量的增加单调递增。最好的方法是交叉验证并选择有着最高的R2和最低的RSS的模型。
向前逐步选择:这个方法从一个比较小的变量子集开始,逐渐增加预测变量。它首先从一个不包含任何预测变量的模型开始,然后往模型里逐渐加入预测变量,一次一个直到所有预测变量都被加入了模型中。添加变量的顺序是先把能够最大程度提高模型拟合度的变量加进去,直到不能更进一步提高模型准确率为止。
向后逐步选择:从把所有p个预测变量都放进模型开始,然后逐渐减少变量,把影响较小的变量一次一个地从模型中拿掉。
混合方法:遵从递增选择的方法,但是,在添加每个新的变量以后,同时把之前放进模型却对于提高模型拟合度没有较大贡献的变量再拿掉。
5. 收缩
该方法使用所有p个预测变量来进行建模,然而,模型系数会根据最小二乘估计向零收缩。这种收缩也被称为正则化,通过减少方差来防止模型过度拟合。根据不同类型的收缩,一些系数可能被直接估计为零。因此这种方法也用来进行变量选择。将系数收缩至零的两种最知名的方法是岭回归(Ridge regression)和套索回归(Lasso regression)。
岭回归(Ridge regression)是一种改良的最小二乘法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。岭回归和最小二乘法一样,寻求降低RSS的系数估计,然而,当系数接近零时,目标函数也会有一个收缩惩罚。这个惩罚项能将系数估计值缩小到零来减少参数个数。不需要进行详细的数学计算,我们只要记住岭回归能将具有最小的列空间方差的参数缩减掉。与主成分分析类似,岭回归将数据投射到低维空间,然后对低方差部分的系数进行收缩而保持高方差部分的系数不变,这就对应了主成分分析中的忽略最小主成分,保留最大主成分。
岭回归至少有一个缺点,那就是它在最终的模型中依然包括了所有p个预测变量。收缩惩罚会让很多变量的系数都逼近零,但永远不会等于零。这在预测精确度上通常不是个问题,但这会让模型更难以去解释结果。套索回归(Lasso regression)就克服了这个缺点并且理所当然地在能够将一些系数强制为零。因此,索讨回归也能用来执行变量的选择。
本文来源:Medium
作者:James Le
翻译:Yi, Vivian | MarTechApe
好课推荐
▲《营销组合建模训练营》第五期火热招生,戳图片了解课程详情
关于MarTechApe
MarTechApe是一个来自纽约、专注MarTech领域的知识分享|技能学习|求职服务的终身学习平台。我们提供最专业的Marketing Technology课程。
朋友会在“发现-看一看”看到你“在看”的内容