数据科学家也需要补上这堂统计课

MarTechApe MarTechCareer

本文授权转自知乎,作者TerenceD


多人想要学好数据科学,找到一份高薪的数据分析工作,而学习数据科学的过程中,掌握好统计学知识是一大关键,从最常用的描述性统计、概率、假设检验和回归,到学好机器学习必须要掌握的贝叶斯概率等,贯穿于数据科学的方方面面。


有了一定的统计基础,你在学习营销数据科学的前沿方法时,才能更加得心应手,易于理解和运用这些方法,从而提高自己在工作中的专业性和不可替代性。


以下所推荐的统计方面的书籍资料,从基础到进阶为你一一罗列,绝大部分还可以找到配套的程序与数据资料


统计学习基础

Ryan Tibshirani的《Statistical Computing 统计计算》 和《Convex Optimization凸优化》值得推荐。


前者是非常基础的统计计算课程,手把手如何编程。凸优化的课程框架和Boyd凸优化课程较类似,另在此基础上拓展讲了一些应用算法。比Boyd课程和书的优点在于,内容比较新且更加凝练,当然Boyd的经典课程还是相当值得一听的!


统计学习

Larry Wasserman 的《Statistical Methods for Machine Learning》 

统计和机器学习的进阶内容,课程是以专题的形式来推进的,可以选择其中部分专题来学习。


既然提到了 Larry Wasserman 就不得不介绍他的两本经典:《All of Statistics》 和《All of Nonparametric Statistics》。《All of Statistics》介绍统计学的方方面面,但后面的统计方法每章仅有二三十页,内容很难深入。《All of Nonparametric Statistics》定位在非参数统计上,包含bootstrap,kernel,KDE,wavelets等专题。这两本书均有中文版,书名分别是:《统计学完全教程》和《非参数统计全书》。


Source:Machine Learning Mastery


此外涉及无穷维非参数统计有一本书备受赞誉《Mathematical Foundations of Infinite-Dimensional Statistical Models》by Evarist Giné, Richard Nickl。


统计学习ESL

《The Elements of Statistical Learning》 by Trevor Hastie, Robert Tibshirani, Jerome Friedman,其中提供了本书涉及的数据和程序等。这可能是统计学习最经典的学习资料了!工作了几年,依然是非常好的参考书,受益匪浅!


此外作者还有一本统计学习初级教材和相关公开课:《An Introduction to Statistical Learning with Applications in R》 可供参考,包含课程视频、讲义、代码和数据等。


稀疏统计 SLS 

《Statistical Learning with Sparsity: The Lasso and Generalizations》 by Trevor Hastie, Robert Tibshirani, Martin Wainwright。可谓稀疏学习最权威的参考书了。成书于2015年,内容非常新,对各类型Lasso算法、优化算法、压缩感知均有介绍。建议阅读[统计学习 ESL]之后参考这本书。本书亦有中文版:《稀疏统计学习及其应用》。


Trevor Hastie 的三本必读大作


统计推断

《Computer Age Statistical Inference》:两位统计学泰斗Bradley Efron和Trevor Hastie所著。这本书不是简单的教材或者notes,而是为统计学的发展著书立传,如果翻译成中文,期望书名是《统计推断简史》。


Bradley Efron 和 Trevor Hastie 两位大佬


数理统计

《Mathematical Statistics-Basic Ideas and  Selected Topics by Peter Bickel》是数理统计教材中最好的之一,但读起来并不轻松。其第一版出版于1977年,第二版更新于2015年,分为两卷,我主要看的是第二卷,涉及asymptotic efficiency,model selection,oracle inequalities等部分。


协方差估计

《High‐Dimensional Covariance Estimation》 by Mohsen Pourahmandi :主要介绍高维协方差矩阵估计,从回归模型和正则化开始讲起,进而讲到稀疏等估计算法。整书仅不到200页,读起来较轻松。


高维统计 

比较经典的著作是《Statistics for High-Dimensional Data》by Bühlmann,该书也是非常多高维数据统计课程的参考书,中文版书名是《高维数据统计学:方法、理论和应用》。没时间看书的朋友可以参考作者的PPT介绍——“Bühlmann 高维数据PPT”。


当年高维数据的书籍很少,大佬们忙着提概念,phd忙着灌水,都没时间写书。当时这一本将Lasso及衍生方法与理论,算法系统整理并介绍,是十分难得的新手学习资料。但这几年灌水难度提高,好的书籍也就慢慢多了起来,尤其是SLS(稀疏统计)和HDP(层次狄利克雷过程,一种分层聚类方法)都相当有参考价值。MIT的Philippe Rigollet教授的课程讲义也可以参考,但是内容不是很全。


《Large Sample Covariance Matrices and High-Dimensional Data Analysis》是白志东院士经典著作,以随机矩阵理论为接入点,介绍高维统计数据分析。内容比较前沿,做学术研究的同学可以参考一下。此书已经出中文版。


《Analysis of Multivariate and High-Dimensional Data》 by Inge Koch:这本书知道人不多,当时是在图书馆找高维数据分析资料时偶然看到的。新手友好,从最基础的multivariate methods开始讲起,介绍PCA(主成分分析),CCA(典型关联分析),DA(判别分析),过渡到Cluster Analysis,Factor Analysis,Multidimensional Scaling,最后一部分介绍ICA(独立成分分析),kernel,Feature Selection等topics。


虽然近几年高维统计的研究非常热门,但系统介绍高维统计的教材并不多,《High-Dimensional Probability》by Roman Vershynin & 《High-Dimensional Statistics》by Martin J. Wainwright 是两本非常权威和系统的参考书,于2019年出版。


高维数据分析三剑客


随机矩阵

另外白志东院士还有一本《Spectral Analysis of Large Dimensional Random Matrices》专门介绍随机矩阵的著作,如果对随机矩阵理论比较感兴趣还可以阅读陶哲轩的《Topics in random matrix theory》和《An Introduction to Random Matrices》by Greg W. Anderson。



以上就是书籍推荐的内容,希望大家业余时间都能花一些时间学习起来。在现今营销数据科学领域中,就有运用到许多统计学原理和方法来解决营销难题,比如依靠K-Means Clustering将用户进行聚类,依靠correlation analysis和regression analysis来研究不同营销渠道对销量的影响等等。


如果你想系统学习这些统计方法是如何运用到营销分析中,解决实际的营销问题,在面试和工作中表现非凡,诚挚向你推荐MarTechApe联合美国名企营销科技专家用心打磨的《营销分析专项系列课程》


MarTechApe精品课程《营销分析专项系列课程》专注于提高营销人员的数据分析能力,提高营销人职场竞争力,已被1000+学员验证有效。


《营销分析专项系列课程》由以下美国名企管理层执教:

  • 知名独角兽公司Airbnb硅谷总部,营销科技经理

  • 苹果公司硅谷总部(前Ebay资深数据分析师),营销数据科学家

  • 美国最大家具电商平台Wayfair,营销数据科学经理

  • 美国电信巨头Verizon,营销效果经理

  • 全球最大广告公司GroupM,营销分析经理


课程大纲如下



(戳我可以了解课程设置详情)

报名方式


价格:¥1540
*我们提供标准Invoice,可用于企业报销



如果你曾购买过本专项中任意一门课程,请咨询小助手获得购买方式(如果你买的课程不在这五门之列,请勿扰)

小助手

坚持学习,保持职场竞争力,MarTechApe的课堂,期待你的到来!



    阅读原文