数据科学家超级明星必备的12个技能
一周前,我在LinkedIn上问了一个问题:
优秀的数据科学家与卓越的数据科学家的区别是什么?
令人惊讶的是,我收到了来自不同行业的许多顶级数据科学家的回应,都分享了他们非常有趣且实用的想法和建议。
为了进一步了解优秀数据科学家和顶级数据科学家之间的主要区别,我一直在互联网上搜索……直到在KDnuggets上看到本文。
因此,我总结了所有信息并列出了成为顶级数据科学家的必备技能。
事实上,数据科学家不可能同时拥有下面列出的所有技能。但是这些技能是顶级数据科学家和优秀数据科学家的区别所在。
希望在本文结尾时,这些技能对你作为数据科学家的整个职业生涯有所帮助。
成为顶级数据科学家的12大技能:
1. 教育背景
数据科学家基本受过高等教育(88%的人至少具有硕士学位,46%的人拥有博士学位),尽管有一些例外,但通常需要非常强大的教育背景和知识储备来满足成为数据科学家所必需的知识深度。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。以上相关领域的任何一个学位都可以提供处理和分析大数据所需的技能。
完成学位课程后,还不够。事实是,大多数数据科学家都拥有硕士学位或博士学位,并且他们还接受在线培训来学习更多技能,例如如何使用Hadoop或大数据查询。
除了课堂学习之外,还可以通过创建APP、写博客、探索数据分析项目来练习在课堂上学到的东西,从实践中得到更多经验和心得体会。
我认为如果你能完成工作内容,拥有硕士或是博士学位其实不是必须的。在大多数行业工作范围内,只要您能够解决业务问题,就无需花费大量的时间在学历的追求上。
2. R和Python
通常来说数据科学家需要对至少一种分析工具有深入的知识,R是首选。R是专门根据数据科学家的需求而设计的编程语言。你可以使用R解决在数据科学领域遇到的任何问题。实际上,有43%的数据科学家正在使用R解决统计问题。
Python是数据科学职位中最常用的编码语言,它与Java,Perl或C / C++一样。对于数据科学家而言,Python是一种很棒的编程语言。这就是为什么在O'Reilly调查的受访者中有40%使用Python作为主要编程语言的原因。
由于Python的多功能性,几乎可以将Python用于数据科学过程中的所有阶段。它可以处理各种格式的数据,并且可以轻松地将SQL导入代码中。可以用Python创建数据集,并且可以在Google上找到所需的任何类型的数据集。
3. Hadoop平台
尽管这并不是必需的工具,但在很多情况下,它是首选。拥有Hive或Pig的经验是一个优势。熟悉诸如Amazon S3之类的云工具也会有所帮助。CrowdFlower对3490个LinkedIn数据科学工作进行的一项研究表明,Apache Hadoop为数据科学家的第二重要的技能,得分为49%。
作为数据科学家,你可能会遇到这样一种情况,即拥有的数据量超出了系统的内存,或者你需要将数据发送到其他服务器,这就是Hadoop的用武之地。你可以使用Hadoop快速将数据传送到系统各处。还可以使用Hadoop进行数据挖掘,数据过滤,数据采样和汇总。
4. SQL数据库/编码
尽管NoSQL和Hadoop已经成为数据科学的重要组成部分,但作为数据科学家,在SQL中编写和执行复杂的查询依然是一项必备技能。SQL(结构化查询语言)是一种编程语言,可以帮助你执行诸如从数据库添加,删除和提取数据之类的操作。它还可以帮助执行分析功能和转换数据库结构的任务。
作为数据科学家需要精通SQL。这是因为SQL是专门为帮助存储,传达和处理数据而设计的。它可以在查询数据库时,帮你产生insights。它具有简洁的命令,可以帮助你节省时间并减少执行复杂查询所需的编程量。学习SQL将帮助你更好地理解关系数据库并提升你作为数据科学家的个人经历。
5. Apache Spark
Apache Spark正在成为全球最受欢迎的大数据技术。就像Hadoop一样,它是一个大数据处理计算工具。唯一的区别是Spark比Hadoop处理速度快。这是因为Hadoop读写磁盘所以处理变慢,但是Spark将其计算过程缓存在内存中。
Apache Spark专为数据科学而设计,可帮助更快地运行复杂的算法。当你要处理大量数据时,它可以分布式地进行数据处理,从而节省时间。它还可以帮助数据科学家处理复杂的非结构化数据集。您可以在一台或多台计算机上使用它。
数据科学家使用Apache Spark可以防止数据科学中的数据丢失。Apache Spark的优势在于其速度和平台,这使得执行数据科学项目变得容易。使用Apache Spark,你可以进行从数据获取到分布式计算的分析。
6.机器学习与人工智能
很多数据科学家并不精通机器学习领域和技术。这包括神经网络,强化学习,对抗学习等。如果你想在数据科学家中脱颖而出,则需要广泛地了解机器学习技术,例如监督机器学习,决策树,逻辑回归等。这些技能将帮助解决很多和预测相关的问题,并提升组织运行效率。
数据科学不是一门纸上谈兵的学科,需要在机器学习的不同领域中不断应用和操练。Kaggle在其一项调查中显示,一小部分数据专业人员具备高级机器学习技能,例如有监督的机器学习,无监督的机器学习,时间序列,自然语言处理,离群值检测,推荐引擎等。
数据科学涉及处理大量数据集,所以需要熟悉机器学习方法。
7.数据可视化
商业活动中经常产生大量数据。这些数据需要被转换为易于理解的格式。相比原始数据,人们更容易了解图表和图片形式的数据。有个谚语说:“一张图片的内涵超过一千个单词”。
作为数据科学家,你必须能够借助数据可视化工具(例如ggplot,d3.js和Matplotlib和Tableau)来可视化数据。这些工具将帮助数据科学家将项目中的复杂结果转换为易于理解的格式。数据科学家在解释结果时面临的比较大的问题是,很多人不了解序列相关性或p值的意义。需要直观地向利益相关者展示这些术语在最后的结果中代表什么,意味着什么。
数据可视化使公司决策层有机会直接使用数据。他们可以快速从数据中得到见解,从而帮助公司把握新的商机并保持竞争优势。
想看如何用数据讲故事?可以看看这篇文章👉“能说”的数据科学家比“能做”的影响力大?
8.非结构化数据
数据科学家能够处理非结构化数据至关重要。非结构化数据是一种不适合数据库表的未定义内容。例如 视频,博客文章,客户评论,社交媒体文章,视频供稿,音频等。它们是汇集在一起的大量文本。很难对这些类型的数据进行排序,因为它们没有被处理过。
由于其复杂性,大多数人将非结构化数据称为“黑暗分析”。使用非结构化数据可帮助你揭示对决策有用的见解。作为数据科学家,你必须具有理解和处理来自不同平台的非结构化数据的能力。
9.求知欲
“我没有特殊才能。我只是充满好奇。” ——艾尔伯特·爱因斯坦
毫无疑问,在很多地方都看到过这个名人名言,尤其是因为它与数据科学家有关。卢志刚(Frank Lo)在几个月前发布的访客博客中描述了其含义,并谈论了数据科学家其他必要的“软技能”。
好奇心可以定义为获取更多知识的愿望。作为数据科学家,你需要不断地提出与数据有关的问题,因为数据科学家花费大约80%的时间来搜索和准备数据。并且数据科学领域是一个发展迅速的领域,你必须学习更多以跟上发展的速度。
在线阅读相关内容和数据科学趋势的相关书籍来定期更新知识是数据科学家要一直去做的事情。不要害怕遍布互联网的庞大数据,你必须能够知道如何理解使用这些数据。好奇心是成为数据科学家所需的技能之一。例如,最初可能不会对所收集的数据有太多了解发现。好奇心驱使数据科学家去筛选数据以找到答案并产生更多见解。
10.商业头脑
要成为数据科学家,光知道如何处理冷冰冰的数据和写代码是远远不够的。你需要对你所从事的行业有非常扎实的了解,并对公司正在尝试解决哪些业务问题有深入地了解,这样才能够找准现在公司发展的痛点,并将一个商业问题准确的转化成一个数据科学问题。就数据科学而言,辨别哪些问题的解决对公司有正面影响,并探索处理数据的新方法很重要。
为此,作为一个数据科学家,你必须要有一个全局观,了解需要解决的问题对整个公司的业务发展,未来走向有什么影响。这就是为什么数据科学家也必须要解企业的运作方式,以便可以朝正确的方向努力。
11.沟通技巧
现在企业在招聘数据科学家的时候,非常看重的一项能力是清楚,流利地将非常技术层面的结果生动形象且高效准确地呈现给非技术团队。例如给营销或销售部门。数据科学家除了要了解非技术部门的同事的需求,从而找到恰当的方法和合适的数据来解决问题,还必须要通过数据得出的见解来帮助业务部门进行决策。
除了使用公司和业务相关的”通用语言“,也就是你所在的领域的一些domain knowlegde,你还需要使用数据讲故事的方式进行交流。作为数据科学家,你必须知道如何围绕数据创建故事情节,使任何人都能理解数据。例如,用呈现数据表格的方式来展示结果的效率远远低于以讲故事的形式共享这些数据见解的形式。使用讲故事的方式将帮助你正确且高效地将发现传达给利益相关者。
交流时,请注意所分析数据中嵌入的结果和价值。大多数企业的管理层其实并不想知道你分析的过程是什么,他们甚至对结果都不感兴趣。他们对分析结果如何对业务产生积极影响更感兴趣。学会专注于通过交流传递价值并建立持久的关系非常重要。
12.团队合作
数据科学家不能独自工作,他们需要与公司高管一起制定战略,与产品经理和设计师一起创造更好的产品,与市场营销人员一起开展转化效果更好的广告战役和营销活动,与客户和服务器软件开发商一起创建数据管道并改善工作流程。实际上,数据科学家必须与企业中的每个人一起工作。
本质上,数据科学家需要与团队成员合作开发案例,以便了解解决问题所需的数据和业务目标。还需要了解解决问题的正确方法,所需的数据以及如何将结果转换和呈现给所有的利益相关者。
以上就是12个成为卓越的数据科学家的12个必能技能,但是对于很多正在往数据科学道路努力的同学来说,学习这12个技能有什么优先级吗?我们建议你,先学SQL。因为SQL是通往数据科学职位的面试必考,并且是所有高阶分析、机器学习所赖以实现的数据存储和数据管理的基础。
那么,学习SQL的最佳方式是什么呢?
如何有针对性的、有章法地学习,而不是陷入无头苍蝇般的“自学魔咒”呢?SQL要掌握到什么程度就算是准备好了呢?难道要学会SQL所有的细枝末节我才能去面试嘛?如果你想跳出低效的“自学魔咒”、短时间内快速掌握”最实用的“SQL、应对面试,该怎么办?
针对这样的诉求,MarTechApe推出《SQL面试冲刺课》第三季——
Amazon数据工程师授课帮你拿下你的下一场SQL面试!
MarTechApe联合亚马逊商务智能工程师(Amazon Business Intelligence Engineer)开设了SQL特训课,将行业内所需SQL技能和面试考点浓缩成8个小时的课程内容,让你短时间就能实现SQL能力质的飞跃!
第一部分:3小时全方面提升你的SQL基础能力,用SQL完成一系列的数据分析操练,真正学会SQL编程语言,而不是“只知道个大概”。
第二部分:3小时深入辅导Google、Facebook、Amazon、Apple、Uber、Airbnb等知名公司的SQL面试真题,总结不同公司的SQL出题风格。让你从此不再胆怯SQL面试题!
第三部分:2小时的美国互联网大厂SQL面试经验分享
课程大纲
授课老师
Cindy老师
Amazon亚马逊美国担任商务智能工程师(Business Intelligence Engineer)
亚马逊SQL面试官
课程形式
录播课程,所有内容均有视频回放,一经购买,可永久回看
课程价格
只购买3小时SQL系统性知识培训:149美元/人
只购买3小时SQL真题特训:149美元/人
购买8小时全套课程(最优惠):249美元/人
官网美元购买通道:
*我们提供标准Invoice,可用于企业报销
如果需要人民币支付,请扫描下方二维码,联系小助手进行购课。
想要快速提高你的SQL能力,就快来报名吧!
坚持学习,保持职场竞争力,选择MarTechApe!