数据科学家也需要补上这堂统计课
本文授权转自知乎,作者TerenceD
很多人想要学好数据科学,找到一份高薪的数据分析工作,而学习数据科学的过程中,掌握好统计学知识是一大关键,从最常用的描述性统计、概率、假设检验和回归,到学好机器学习必须要掌握的贝叶斯概率等,贯穿于数据科学的方方面面。
有了一定的统计基础,你在学习营销数据科学的前沿方法时,才能更加得心应手,易于理解和运用这些方法,从而提高自己在工作中的专业性和不可替代性。
以下所推荐的统计方面的书籍资料,从基础到进阶为你一一罗列,绝大部分还可以找到配套的程序与数据资料。
统计学习基础
Ryan Tibshirani的《Statistical Computing 统计计算》 和《Convex Optimization凸优化》值得推荐。
前者是非常基础的统计计算课程,手把手如何编程。凸优化的课程框架和Boyd凸优化课程较类似,另在此基础上拓展讲了一些应用算法。比Boyd课程和书的优点在于,内容比较新且更加凝练,当然Boyd的经典课程还是相当值得一听的!
统计学习
Larry Wasserman 的《Statistical Methods for Machine Learning》
统计和机器学习的进阶内容,课程是以专题的形式来推进的,可以选择其中部分专题来学习。
既然提到了 Larry Wasserman 就不得不介绍他的两本经典:《All of Statistics》 和《All of Nonparametric Statistics》。《All of Statistics》介绍统计学的方方面面,但后面的统计方法每章仅有二三十页,内容很难深入。《All of Nonparametric Statistics》定位在非参数统计上,包含bootstrap,kernel,KDE,wavelets等专题。这两本书均有中文版,书名分别是:《统计学完全教程》和《非参数统计全书》。
Source:Machine Learning Mastery
此外涉及无穷维非参数统计有一本书备受赞誉《Mathematical Foundations of Infinite-Dimensional Statistical Models》by Evarist Giné, Richard Nickl。
统计学习ESL
《The Elements of Statistical Learning》 by Trevor Hastie, Robert Tibshirani, Jerome Friedman,其中提供了本书涉及的数据和程序等。这可能是统计学习最经典的学习资料了!工作了几年,依然是非常好的参考书,受益匪浅!
此外作者还有一本统计学习初级教材和相关公开课:《An Introduction to Statistical Learning with Applications in R》 可供参考,包含课程视频、讲义、代码和数据等。
稀疏统计 SLS
《Statistical Learning with Sparsity: The Lasso and Generalizations》 by Trevor Hastie, Robert Tibshirani, Martin Wainwright。可谓稀疏学习最权威的参考书了。成书于2015年,内容非常新,对各类型Lasso算法、优化算法、压缩感知均有介绍。建议阅读[统计学习 ESL]之后参考这本书。本书亦有中文版:《稀疏统计学习及其应用》。
Trevor Hastie 的三本必读大作
统计推断
《Computer Age Statistical Inference》:两位统计学泰斗Bradley Efron和Trevor Hastie所著。这本书不是简单的教材或者notes,而是为统计学的发展著书立传,如果翻译成中文,期望书名是《统计推断简史》。
Bradley Efron 和 Trevor Hastie 两位大佬
数理统计
《Mathematical Statistics-Basic Ideas and Selected Topics by Peter Bickel》是数理统计教材中最好的之一,但读起来并不轻松。其第一版出版于1977年,第二版更新于2015年,分为两卷,我主要看的是第二卷,涉及asymptotic efficiency,model selection,oracle inequalities等部分。
协方差估计
《High‐Dimensional Covariance Estimation》 by Mohsen Pourahmandi :主要介绍高维协方差矩阵估计,从回归模型和正则化开始讲起,进而讲到稀疏等估计算法。整书仅不到200页,读起来较轻松。
高维统计
比较经典的著作是《Statistics for High-Dimensional Data》by Bühlmann,该书也是非常多高维数据统计课程的参考书,中文版书名是《高维数据统计学:方法、理论和应用》。没时间看书的朋友可以参考作者的PPT介绍——“Bühlmann 高维数据PPT”。
当年高维数据的书籍很少,大佬们忙着提概念,phd忙着灌水,都没时间写书。当时这一本将Lasso及衍生方法与理论,算法系统整理并介绍,是十分难得的新手学习资料。但这几年灌水难度提高,好的书籍也就慢慢多了起来,尤其是SLS(稀疏统计)和HDP(层次狄利克雷过程,一种分层聚类方法)都相当有参考价值。MIT的Philippe Rigollet教授的课程讲义也可以参考,但是内容不是很全。
《Large Sample Covariance Matrices and High-Dimensional Data Analysis》是白志东院士经典著作,以随机矩阵理论为接入点,介绍高维统计数据分析。内容比较前沿,做学术研究的同学可以参考一下。此书已经出中文版。
《Analysis of Multivariate and High-Dimensional Data》 by Inge Koch:这本书知道人不多,当时是在图书馆找高维数据分析资料时偶然看到的。新手友好,从最基础的multivariate methods开始讲起,介绍PCA(主成分分析),CCA(典型关联分析),DA(判别分析),过渡到Cluster Analysis,Factor Analysis,Multidimensional Scaling,最后一部分介绍ICA(独立成分分析),kernel,Feature Selection等topics。
虽然近几年高维统计的研究非常热门,但系统介绍高维统计的教材并不多,《High-Dimensional Probability》by Roman Vershynin & 《High-Dimensional Statistics》by Martin J. Wainwright 是两本非常权威和系统的参考书,于2019年出版。
高维数据分析三剑客
随机矩阵
另外白志东院士还有一本《Spectral Analysis of Large Dimensional Random Matrices》专门介绍随机矩阵的著作,如果对随机矩阵理论比较感兴趣还可以阅读陶哲轩的《Topics in random matrix theory》和《An Introduction to Random Matrices》by Greg W. Anderson。
以上就是书籍推荐的内容,希望大家业余时间都能花一些时间学习起来。在现今营销数据科学领域中,就有运用到许多统计学原理和方法来解决营销难题,比如依靠K-Means Clustering将用户进行聚类,依靠correlation analysis和regression analysis来研究不同营销渠道对销量的影响等等。
如果你想系统学习这些统计方法是如何运用到营销分析中,解决实际的营销问题,在面试和工作中表现非凡,诚挚向你推荐MarTechApe联合美国名企营销科技专家用心打磨的《营销分析专项系列课程》!
MarTechApe精品课程《营销分析专项系列课程》专注于提高营销人员的数据分析能力,提高营销人职场竞争力,已被1000+学员验证有效。
《营销分析专项系列课程》由以下美国名企管理层执教:
知名独角兽公司Airbnb硅谷总部,营销科技经理
苹果公司硅谷总部(前Ebay资深数据分析师),营销数据科学家
美国最大家具电商平台Wayfair,营销数据科学经理
美国电信巨头Verizon,营销效果经理
全球最大广告公司GroupM,营销分析经理
前往“发现”-“看一看”浏览“朋友在看”