数据分析师必须掌握的10种统计方法(2)
统计能力在现今的职场上已成为最重要的能力之一。不管你从事什么工作,已经不能否认整理、分析、合理化数据的重要性了。在海量的统计知识里,有10个统计技能在商业应用中因其应用的广泛性而脱颖而出,在《数据分析师必须掌握的10种统计方法 (1)》一文中我们介绍了前五种方法,本文将继而介绍后五个重要的方法。
6. 降维
降维是一种对高纬度特征数据进行预处理的方法,去除一些不重要的特征(变量),保留下最重要的,从而能大大提升数据的处理速度。降维将估测p+1个系数的问题简化为估测M+1个系数的问题,其中M<p。这是通过计算变量的M个不同线性组合或者投影(projection:将p维特征映射到M维上)来实现的。然后这M个投影被用作预测变量,通过最小二乘法来拟合线性回归模型。涉及的两个主要方法是主成分回归(principal component regression)和偏最小二乘(partial least squares)。
我们可以把主成分回归看作是一种从大量的变量中提取出一组新的低维变量特征集合的方法。因为大量变量中往往存在信息互相重叠,易导致多重共线性的问题。而在通过线性变换以后重新得到的指标也要尽可能保留原始变量的信息,且彼此又不相关。其计算目标是降维后低维样本数据之间每一维的方差要尽可能大,从而便于区分每一个主成分。
主成分分析的工作可以理解为从数据形成的原始空间中顺序地找一组组相互正交的新坐标轴。其中,第一个方向(即第一个新坐标轴)选择是原始数据中方差最大的方向,能最大程度解释数据趋势。换句话说,第一个主成分是一条与数据尽可能拟合的线。第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的。第三个轴是与第1、2个轴正交的平面中方差最大的。依此类推,可以得到n个这样的坐标轴。可以发现,通过这种方式获得的新的坐标轴,大部分方差都包含在了前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的,从而实现对数据特征的降维处理。
于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
上面提到的主成分回归方法就涉及到识别最能代表预测变量X的线性组合。这些组合(方向)是以无监督的方式(无监督学习:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型来得到数据之间的关系)来识别的,因为X的响应值Y不被用于帮助确定主成分方向。也就是说,响应值Y不监督主成分的识别,因此不能保证最能解释预测变量的方向也是最能预测响应值的(虽然经常被这么假设)。
偏最小二乘方法(Partial least squares, PLS)是主成分分析法的一种监督替代方案。跟主成分分析一样,偏最小二乘也是一种降维方法,它首先识别出一组新的较少的特征,这些特征是原始特征的线性组合。然后通过最小二乘法将这新的M个特征与一个线性模型进行拟合。然而,与主成分分析不同,偏最小二乘利用了响应变量来识别新特征。
7. 非线性模型
在统计学中,非线性回归是回归分析的一种形式,观察的数据进行非线性关系的建模,解释变量为一个或多个。非线性回归使用逐次逼近法拟合数据。下面是处理非线性模型的几个重要技术:
阶梯函数(step function):分段常值函数,可以写成区间[a, b]内有限个数值函数的形式。非正式地讲,阶梯函数是数量有限的分段常数函数。
分段函数(piecewise function):就是对于自变量x的不同的取值范围,有着不同的解析式的函数。分段实际上是一种表达函数的方式,而不是函数本身的一种特征,通过附加的限制条件,它可以描述这个函数的本质。例如,分段多项式函数是指在其每个子域上是多项式函数,但在每个子域上是不同的多项式函数
样条曲线(spline):是一种由多项式分段定义的特殊函数,是经过一系列给定点的光滑曲线。在计算机图形学中,样条曲线指的是分段多项式参数化曲线。样条曲线由于其结构简单,评估简便又准确而很受欢迎。并且其还有通过曲线拟合和交互曲线设计来近似还原复杂曲线形状的能力。
参数化:即利用参数t来间接代表和描述x与y的关系,拿椭圆在直角坐标系的【普通方程】来写:
x²/a²+y²/b²=1.
设成x=a·cos t,
y=b·sin t
即参数化
广义加性模型(generalized additive model)是一种广义线性模型,可以用来探测到非线性回归的影响。其中的线性预测变量线性地依赖于某些预测变量的未知光滑函数(在定义域内无穷可导的函数),即模型中每一个加性项使用单个光滑函数来估计,在每一个加性项中可以解释因变量如何随自变量变化而变化,其主要关注于这些光滑函数的推断。
8.基于树的方法(Tree-Based Methods)
基于树的方法既可以用于回归也可以用于解决分类问题。这涉及到了将自变量进行空间分层或者分段成为几个简单的区域。因为用来将自变量分段的方法像一棵树的样子,这类方法也被称为决策树。不同的分段方法会生成不同的决策树模型,然后不同的决策树模型会被结合在一起做出一个预测。
Bagging(装袋算法):给定一个指定大小的训练集,Bagging算法从中均匀、有放回地(即使用自助抽样法)选出若干个子集作为新的训练集。在选出的新的训练集上使用分类、回归等算法,则可得到若干个模型,再通过取平均值、取多数票等方法,即可得到Bagging的结果。通过这种方法可以减少你的预测的误差。
Boosting(梯度提升):就是用几种不同的模型来计算出结果,然后用加权平均的方法来取结果的平均值。通过这种方法来提高弱分类算法的准确度。
Random Forest (随机森林):该算法其实是非常接近bagging的。在这里,你同样从训练数据集里随机抽取样本数据集。不过,与Bagging不同的是,随机森林除了bootstrap样本,你也为训练个别树模型来抽取随机的特征(变量)组合,而在bagging里你给每个树模型全部特征(而不是随机抽取个别的特征)。因为对特征的随机选择,你可以让树模型之间比常规的bagging方法建造出的模型更加独立,所以也就会带来更强大的预测表现,而且它也更快,因为每个树模型是根据随机抽取出的特征集进行学习。
9.支持向量机(support vector machines)
SVM是一种分类技术,在机器学习里算是监督学习模型的一种。简单来说,它就是一种找到最佳的区分两组数据的超平面,使得两组的间隙最大(Maximum margin)。
一听到超平面这个词,大家肯定有点晕。那我们就拿5岁孩子都能懂的例子来说明一下。
在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。
魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”
于是大侠这样放,干的不错?
然后魔鬼,又在桌上放了更多的球,似乎有一个球站错了阵营。
SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙。
现在即使魔鬼放了更多的球,棍仍然是一个好的分界线。
然后,在SVM 工具箱中有另一个更加重要的 trick。魔鬼看到大侠已经学会了一个trick,于是魔鬼给了大侠一个新的挑战。
现在,大侠没有棍可以很好帮他分开两种球了,现在怎么办呢?当然像所有武侠片中一样大侠桌子一拍,球飞到空中。然后,凭借大侠的轻功,大侠抓起一张纸,插到了两种球的中间。
现在,从魔鬼的角度看这些球,这些球看起来像是被一条曲线分开了。
如果你把这些球看作是数据(Data),那棍子就是classifier, 最大间隙trick 叫做optimization, 拍桌子叫做kernelling, 那张纸就叫做——超平面hyperplane。
10.无监督学习
目前,我们只讨论了监督学习技巧,也就是群组是已知的,算法是实际个体和他们所属的群的关系。另一套方法可以用在当一套数据如何分类是未知的时候。它们被称为无监督学习,因为这套方法是依靠算法学习来找出数据的范式的。聚类就是一种无监督学习,不同的数据集会被分成好几组,组内的各项紧密相关。下面就是一系列最广泛应用的无监督学习算法:
主成分分析: 主成分分析帮助一个数据集来产生低纬的表征。通过识别一套特征的线性组成,有着最大的变异,并且是相互不相关的。这个线性的维度技术对于在无监督场景理解变量之间的latent interaction非常有帮助。
K-means聚类方法:根据数据到cluster的中心的距离把数据分成k个不同的类。
层次聚类 (Hierarchical):层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。通过计算不同类别的相似度来创建一个有层次的嵌套的树。
这十种方法就是是一套基本的、帮助数据科学经理或者执行人员对他们的数据科学团队有一个更好地理解的统计方法。有些数据科学团队纯粹用Python或者R的工具包来跑算法。他们中的大多数并不会思考方法背后的数学原理。但是,对统计分析的基础的理解会帮助你的团队更好地解决问题!
本文来源:Medium
作者:James Le
翻译:Yi, Vivian | MarTechApe
Other References:
https://www.zhihu.com/question/21094489/answer/86273196
https://zhuanlan.zhihu.com/p/37777074
好课推荐
▲《营销组合建模训练营》第五期火热招生,戳图片了解课程详情
关于MarTechApe
MarTechApe是一个来自纽约、专注MarTech领域的知识分享|技能学习|求职服务的终身学习平台。我们提供最专业的Marketing Technology课程。
朋友会在“发现-看一看”看到你“在看”的内容