数据科学学生融入工业界有多艰难?
原创:MarTechApe
成为一名出色的数据科学家的关键在于你解决问题的方式。数据科学家将科学方法应用于商业环境,这就是为什么科学家通常可以成功地过渡到该领域的原因。从理论上讲,这听起来很简单,但是许多毕业于数据科学项目的、具有出色学术背景的学生候选人们,却被发现很融入工业领域。
为了解决这个问题,我们找出了数据科学学生为了融入工业界需要注意的六大注意事项。如果你希望自己可以跨过学校和工业界之间的鸿沟,那就在这六方面好好准备吧!
1. 花时间在了解业务和产品上,这与钻研数据科学概念同样重要
公司普遍担心的是,相较产品而言,刚毕业的数据科学学生通常对概念更感兴趣,从不在乎项目的整体实施流程和其中繁琐的细节工作。
可是,最好的数据科学家不仅可以完成项目,还可以推动公司中项目的前进,并确保他们的工作有助于更好地改善业务。
一个数据科学项目从开始到完成,需要花费很长的时间,所以对于刚入职的学生而言,有效地管理他们的时间,项目和公司的期望至关重要。
公司希望看到的是完善的项目集合,而不是半成品。少数的完成项目比大量的未完成项目更具有影响力。
2. 你是否可以利用脏数据(dirty data)解决问题?
从事数据行业工作的数据科学家知道,原始数据通常是不可直接使用的,是不完美的,并且项目范围和目标可能会发生变化。
数据科学中的一个公认事实是,数据科学家可能会花费高达80%的时间在获取和修复数据上。优秀的数据科学家可以在利用可获取数据的情况下找到具有实际业务影响的项目,并了解何时实施或更改策略,从而为公司带来价值。
在一定的限制条件下解决问题是数据科学家职业生涯中的家常便饭,因此请确保在你的求职过程中可以提供相关的项目经历来证明你有足够的处理大量dirty data的经历。
3. 你是否具有关键的专业技能?
数据科学仍然是一个相对较新的行业,职位描述经常要求在各种新颖的应用工具和技术中的经验。无论职位的具体描述如何,我们都建议新的数据科学家投资并建立这些核心技能以作为坚实基础 - Python(或R),计算机科学基础(算法,代码复杂性,数据结构),数据库(以SQL开始) ,统计信息,线性代数以及机器学习的基础知识。有很多地方可以免费或在线免费学习这些技能。
一旦你确信自己具备了这些技能,就可以通过在简历的第一页上着重展示这些内容来使HR和公司的招聘工作更轻松,而不是把这些内容放在你简历的底部。
尽管你对特定研究领域的细节可能很感兴趣(对于你而言),但对于大多数职位而言,公司想知道的是你具有解决基础问题的关键技能。
4. 你能否写出商业级质量的代码?
学生在学校课程中很少被要求编写可重复使用的代码、使用版本控制系统或进行代码审查。学会在团队环境中工作,在项目上进行协作以及阅读其他人的代码是数据科学工作的基础。
展示你的编程技能的最佳方法是通过产品组合,最好是在行业标准版本控制系统(例如Git)上。学习并熟悉版本控制、文档、并保持项目的整洁和可读性。对开源项目的兴趣永远是一个加分项,也是面试中的重要话题。
5. 你是否可以判断商业价值并且专注于创造价值?
对于任何项目而言,利用掌握的知识来达到商业目的都是至关重要的,而不是为了自己的目的而掌握这些知识。数据科学家的工作结果需要其他团队使用才能产生影响,这通常意味着对于良好的期望管理的要求。即使工作再出色,但如果回答错误的商业问题,也就几乎没有商业价值了。很多学生会兴奋于回答“有趣的”问题,但是很多时候有趣的问题在商业上并不重要。在项目定义不明确并不断变化的环境中,理解对你的期望并将工作与公司目标保持一致尤其重要。从项目一开始就牢记商业价值是一种很好的做法。好的项目建议书应包括项目的综合背景,明确的目标和潜在影响,如何成功地实施项目,关键的利益相关者以及可用的数据集。
6. 你是否可以与非技术背景的同事交流产品、营销、销售?
最后,我们来聊一聊公司普遍最大的担忧。在真实的工作场景中,很少有数据科学家会只花时间和其他数据科学家交流,因为他们所做的工作都会直接影响产品团队、营销团队、销售团队以及许多其他公司人员,所以他们必须和那些非技术同事保持高频率的交流。而能够与非技术同事建立关系是完成你的工作的关键。
尽管在学校有很多与他人进行交流的机会(例如在会议,研讨会或作为老师),但是你很少会收到有关交流方式和效果的反馈。没有反馈和探讨的实践,很难变得更好。
作为还没有进入工业界的学生,你开始了解真实的工业界数据科学与学校的差距了吗?其实,工业界与学校的差距还远远不止上文的这六点,很多学生进入职场的当头一棒就是——
学校里做的项目主要是在建模,但进入了公司才发现,建模仅仅是整个生产链条中的一小部分。项目中关于模型前期的数据流接入,中期的测试、自动化pipeline搭建、部署,以及后期的协同和迭代,都是非常关键的组成部分,这些是学校中接触不到的。而那些在工作中遇到的数据,就更加远远比学校的数据集更加模糊且“不干净”,需要反复和提供方确认,还经常需要根据数据特征和行业知识进行假设,然后验证、清洗、整合,而且数据量往往非常大(特征数量在百万个以上),需要使用Spark和云计算的环境进行分布式并行计算。
面对如此大的差异,有没有一门课程,可以提前让学生群体们,了解并适应工业界里真实的数据科学家的工作内容呢?MarTechApe携手德勤咨询数据科学家开设了《数据科学求职升级——业界实战导览》精品小课,为你在学校与工业界之间架起必要的桥梁!
1.你将获得
这是目前市面上唯一一门把工业界数据科学日常中最常用的工具和知识点串联起来集中地讲解和演示的课程。
超越课本的、工业界的数据科学实际工作案例、工具、知识点。
来自纽约德勤咨询数据科学家的第一线行业信息、工作经验总结、工具应用详细展示。
学习写出商业级质量的代码,学习使用Git和Github进行版本控制。
学习机器学习自动化pipeline的不同工具和搭建方法。
Spark、AWS等大数据与云计算必备技能与工作流程介绍。
5次Demo手把手教你使用Github、写PySpark代码、搭建机器学习Pipeline、编写Unit Tests、看懂敏捷开发任务面板。
丰富的练习题与拓展学习资源。
一门课走进你的教授所不曾向你展示的真实的数据科学世界!
2.课程老师
Trans
纽约德勤咨询决策组数据科学家
负责使用梯度算法训练与用户转化相关的预测模型、特征工程、模型解释、机器学习自动化流程的搭建等
拥有5年以上市场分析和数字营销经验,曾主导500强企业亚太区的数字化转型项目。而后成功转型至数据科学领域
毕业于哥伦比亚大学应用分析专业
3. 课程大纲
本门课程共分6大章节:
4. 新课上线,预售优惠!
课程原价:¥339人民币
预售优惠(双人团购)6折优惠:仅需¥203元人民币/人
预售期:9/8~10/11,之后恢复原价。
官网购买通道
5. 常见问题
课程形式是怎样的?
录播课程可随时随地轻松上课,永久回放
可获得完整的课件、所有Demo代码、丰富的课外阅读材料
课程上线时间是?
全部课程(第1课-第6课)将于10月3日上线,一次解锁所有课程。
课程没有固定上课时间,可永久回看。
遇到课程问题如何咨询?
老师将开设两次线上office hour,进行课程内容答疑。
请在订阅课程时,务必填写微信ID与邮箱,不错过课程答疑环节!