原创：MarTechApe

编者按

Trans，德勤咨询“广告、市场与商业”部门数据科学家，毕业于哥伦比亚大学应用分析专业。她去哥大之前，是一名营销人，但成功从文科转型到数据科学，并在工业界积累了广泛的工作经验与职场体会。从院校到工业界的角色转换，让她意识到数据科学学生与工业界希望招募的数据科学员工，有着多么大的差距，而大多学生却没有意识到这些差距。因此她把学校里没有教给学生的数据科学技能全部都浓缩到了《数据科学求职升级——业界实战导览》这门课程里，希望填补知识的空白。

今天，我们采访了Trans，近距离了解一位由文转理的哥大学霸的蜕变与飞跃。

请问Trans老师是通过怎样的一个契机转型成为数据科学家的？

我在市场数据领域工作了几年之后，通过考入哥伦比亚大学应用分析专业读研进修，以及大量的自学，完成了从文/商科到数据科学方向的转型。如果有机会也希望能用我的经验启发或帮助更多的同学。

你是如何选择行业的？你觉得数据科学家在考虑行业时，主要有哪些考量标准？

对我个人而言，由于专业上已经是一个转型者，所以行业方面我尽可能地向自己以往的工作经验方向上靠近：数据分析结合市场、咨询、和项目管理，我现在所在的团队就是德勤咨询的“广告、市场和商业”部门，比较符合我的定位。

而如果泛化来说，行业选择的考量标准我觉得主要有3个：个人兴趣、发展前景、和准入门槛。

个人兴趣永远是最重要的，职业越往后发展你会察觉到它的重要性越来越大，可以说兴趣很大程度上决定了职业发展的高度甚至是工作的幸福指数。发展前景自不用说，上升期的行业机遇更多，一般如果一个行业可以帮助人们解决信息不对称的问题（如咨询/ 互联网）、降低交易成本（如电商平台）、或者增加人与人之间的连结（如社交媒体），就应该会是一个不错的方向。

最后，避免选择准入门槛低的领域，因为职业发展的目的是建立自己的不可替代性，如果行业本身的准入门槛相对较高可以让你的不可替代性更强。

数据科学中的一个公认事实是，数据科学家可能会花费高达80％的时间在获取和修复数据上。优秀的数据科学家可以在利用可获取数据的情况下找到具有实际业务影响的项目，并了解何时实施或更改策略，从而为公司带来价值。

在一定的限制条件下解决问题是数据科学家职业生涯中的家常便饭，因此请确保在你的求职过程中可以提供相关的项目经历来证明你有足够的处理大量dirty data的经历。

你是否具有关键的专业技能？你在面试第一份数据科学家工作时，你觉得当时你最有利的武器是什么？你在面试中的哪个环节表现得最好，让你拿下面试？

最有力的武器应该是我的个人作品集网站，它相当于一个图文并茂版的“简历加github”，包含个人背景介绍、项目展示、过往经历、联系信息等板块。这个作品集网站帮助我拿到了很多的informational interview、内推、面试，我现在这份工作的offer也是通过展示作品集拿到第一轮面试的。

表现的最好的环节应该是on-site面试，因为我比较擅长与人面对面的交流，不管是white board，还是考察项目，或者behavioral interview，在交互的状态下我能更好的结合对方的反馈进行问题的解答或者演示。

疫情原因，现在networking都转为线上了，你个人更喜欢看到什么样的networking message呢？

希望看到对方有针对性、言简意赅、而且能看出有提前做过功课的message，比如说两句话介绍完个人背景，说明自己背景契合某个具体职位，表明你research后了解到的信息以及一个明确的需要帮助的点（如打15分钟电话询问团队的技术栈）。

需要避免的是：模板痕迹太重没有针对性，或消息写的过长（超过手机一屏），特别是要避免直接在互相还不认识的情况下，在第一次发送的消息中，就要求提供内推或附上简历要求修改简历。

在公司里，你现在工作负责的主要内容是什么？你和其他行业的数据科学家最大的区别是什么？

我主要通过数据建模解答一些零售行业的关键性问题，比如LTV（用户终身价值），segmentation（用户分层），return，price optimization等，内容包括数据分析报告、机器学习建模、特征工程和调参、模型解读、和自动化数据管道的搭建。

不同行业的数据科学工作内容相差非常大，主要因为行业本身对数据科学的接纳程度和发展程度不同，比如在科技互联网行业中应用广泛的深度学习可能在一些传统行业中还很少被用到，这是其一。

另外就是数据科学家在不同行业中的角色分工也不同，比如IT领域多为开发人员、教育医疗领域偏向研发、消费零售领域侧重企业管理等等。因此，数据科学家的工作也会相应有不同的重点方向，我的理解是：开发 - 编程工作较多；研发 - 算法较多；管理 - 商业分析更多。

作为一个数据科学家，您最喜欢/不喜欢工作内容的哪一部分？

最喜欢的部分就是学习的机会真的特别多。从外部角度来说，数据科学这个领域本身，就始终保持着非常高的活跃度，新的概念、模型、工具、平台层出不穷，优化着现有的解决方案，等待你去探索学习。从内部来说，团队里每个数据科学家都来自不同的领域，能从他们身上看到事物不同的角度。虽然其实也经常感到学习压力和peer pressure比较大，但有压力有挑战性的事情才是真正能给自己带来价值的事情，这是成长的本质。

不那么喜欢的部分可能是有时候需要花时间在环境配置和安全测试上，这方面有时甚至会花费相当长的时间，这种情况下我会觉得我没有在做data science的工作，感到浪费了时间，不过这就是在一个组织中工作必须考虑和经历的，我也在慢慢的学习和适应。

在你工作的第一年里，作为数据科学家你是如何适应工作环境和节奏的？

刚开始会有一种迷失的感觉，迷失在大量的生产环境下的概念、专有名词、缩写、工具、语言中。我觉得适应环境的过程中有三点比较重要——

一个是多和同组的和邻近组的同事们交流，利用好“新人”的身份多提问，幸运的是组内的氛围很好，给了我很大的帮助。

另外就是始终和直属上级一起商定milestones，保持积极开放的心态持续不断的学习并且取得阶段性的进展。

最后一点，心态上告诉自己不要太焦虑和着急，允许自己take time，也允许自己犯错，职业发展是一个长线的过程，稳中求进才能更长久。

学生期间学的和上班后做的数据科学项目之间，最大的差别是什么？

最大的差别概括来说就是：学校中的数据科学项目是学术环境下虚拟的，主要目的是为了学习技能，是输入；而工作中的项目是生产环境下实际的甚至实时的，主要目的是创造价值，是输出。正是因为两者的主要目的不同，所以数据科学项目各个层面的特性和操作方式也不同，比如说：

从数据层面，学校中的数据集一般都很“干净”，数据清理的工作量相对较小，特征（或者列）的定义明确，总体数据量也较小，基本可以使用Python在本地处理计算；而工业界的数据集存在很多的ambiguity，模糊定义，需要反复和提供方确认，还经常需要根据数据特征和行业知识进行假设，然后验证、清洗、整合，而且数据量往往非常大（特征数量在百万个以上），需要使用Spark和云计算的环境进行分布式并行计算。

从模型层面，对于学生期间的项目来说，建模是项目占比最大的一部分，而且项目重点更多的侧重于模型和算法的“表现”（如误差、准确性等），而在实际工作中，建模仅仅是整个生产链条中的一小部分，项目中关于模型前期的数据流接入，中期的测试、自动化pipeline搭建、部署，以及后期的协同和迭代，都是非常关键的组成部分，这些是学校中接触不到的。

从团队协作层面，学校中的小组项目，组员都是同学，代码的版本控制（如果有的话）和交付基本上在本地完成，项目周期短，基本不涉及项目管理的流程。但在工作中，项目都是不同团队共同参与协作（比如数据科学、数据工程、产品负责人、项目负责人等等），代码使用git/ github进行版本控制，项目流程使用agile development敏捷开发方式进行。

你觉得学生求职数据科学家，最大的gap在哪里（比如学校和工业界的gap、学生认知上的gap等等）？

主要还是认知上的差距 —对技能的认知、价值的认知，和对求职策略的认知。

技能认知的差距主要就是上面提到的工业界和学术界的差距，当然并不是说要完全掌握工业界数据科学的所有技能，这并不现实也不需要。实际上，只要在关键的几个方面（如代码的单元测试、版本控制、Spark、Agile等）有一定的基础了解做过一些小练习，就已经能超越其他求职者一大步。

价值的认知差距集中在将数据科学项目的结果转换成商业价值的差距，换言之，就是要转变对数据项目的价值定义。如果说在学校，一个项目的价值体现在通过技术手段提高了模型的准确性，那么同一个项目在工业界，就需要把模型准确度提高这个结果和商业回报联系起来（增加营收/ 降低成本/ 提高效率等）。

而关于求职策略方面的差距，就和同学自身的定位有关了。数据科学家这个职位其实涵盖了非常多的不同的类型，要求也各有不同，比如偏商业分析方向的（考察侧重SQL和business case）、偏工程方向的（考察侧重coding和ML算法）、偏研究方向的（考察侧重数统知识储备及算法），找到最适合自己的方向，找到自己的differentiator，才能事半功倍。

对于那些在学校里没有系统地学习过编程或者数据处理的同学，你认为他们在申请数据相关岗位时有哪些小技巧可以提升自己的核心竞争力？

首先，如果没有系统的学习过编程和数据处理，那么申请数据相关岗位的时候，就要好好考虑自己的“核心”竞争力是什么（research? product sense? visualization? ），这个竞争力更适合什么领域和类型的数据岗位，如何差异化竞争，然后结合这些岗位的偏好、JD描述、自己的技能水平，去查漏补缺。还可以通过Linkedin多联系在目标岗位就职的校友或朋友，了解更多的日常工作内容、工具和招聘要求，做到有的放矢。

其次，自学数据分析时，最好可以通过做不同的项目的形式来学习（如kaggle project），并且把项目最终完成的源代码、分析报告等上传到你的github account，在readme file中根据STAR原则写好项目描述，然后把github的链接放在简历和Linkedin Profile里，符合招聘官”Don’t tell me, show me”的要求。

进入工作后，有没有那种“后悔”学生找工作时期没做的事？没有掌握的技能？

这个还是挺多的，主要是对工业界数据科学的实际工作没有一个概念，到了工作中很快就发现，学校里学习的内容只有实际使用的十分之一，从学校到职场，技能中间出现一个断崖，这里面包括怎么用命令行界面、怎么交付代码、版本控制、大数据的处理、生产环境下的代码标准、pipeline搭建、敏捷开发等等等等。更要紧的是，目前市面上没有一门课可以把工业界数据科学日常工作中最常用的工具和知识点串联起来，集中地讲解和演示。

这也是我设计《数据科学求职升级——业界实战导览》这门课的初衷，把数据科学技能缺失的这些部分，结合我实际工作中总结的经验，浓缩成6次导览课，希望帮助更多的人少走弯路，降低信息不对称，高效学习，快速入门。

你认为哪些人群更能够从你的课程中获益？

数据岗位的想要大幅提升求职竞争力的在校学生（作为和其他求职者拉开差距的differentiator）
刚刚加入数据科学工作想要快速学习快速适应的初级数据科学家/分析师（当做给自己开小灶的onboarding training）
考虑转型到数据相关领域的想要了解其中工作内容和技能的工作人士（作为转型research的一部分和技能提升的必要训练）

了解了这么多工业界数据科学与校园学习的差异，怎样在求职前抢得先机呢？MarTechApe携手德勤咨询数据科学家Trans老师携手开设了《数据科学求职升级——业界实战导览》精品小课，为你在学校与工业界之间架起必要的桥梁！

1.你将获得

这是目前市面上唯一一门把工业界数据科学日常中最常用的工具和知识点串联起来集中地讲解和演示的课程。
超越课本的、工业界的数据科学实际工作案例、工具、知识点。
来自纽约德勤咨询数据科学家的第一线行业信息、工作经验总结、工具应用详细展示。
学习写出商业级质量的代码，学习使用Git和Github进行版本控制。
学习机器学习自动化pipeline的不同工具和搭建方法。
Spark、AWS等大数据与云计算必备技能与工作流程介绍。
5次Demo手把手教你使用Github、写PySpark代码、搭建机器学习Pipeline、编写Unit Tests、看懂敏捷开发任务面板。
丰富的练习题与拓展学习资源。
一门课走进你的教授所不曾向你展示的真实的数据科学世界！

2.课程老师

3. 课程大纲

本门课程共分6大章节：

4. 新课上线，预售优惠！

课程原价：¥339人民币

预售优惠（双人团购）6折优惠：仅需¥203元人民币/人

预售期：9/8～10/11，之后恢复原价。

官网购买通道

5. 常见问题

课程形式是怎样的？

录播课程可随时随地轻松上课，永久回放
可获得完整的课件、所有Demo代码、丰富的课外阅读材料

课程上线时间是？

全部课程（第1课-第6课）将于10月3日上线，一次解锁所有课程。
课程没有固定上课时间，可永久回看。

遇到课程问题如何咨询？

老师将开设两次线上office hour，进行课程内容答疑。
请在订阅课程时，务必填写微信ID与邮箱，不错过课程答疑环节！

德勤数据科学家、哥大学霸告诉你：其实你也可以从营销华丽转型数据科学！