2020必备的五项数据科学技能
2020年01月05日 由 sunlei 发表
923061
0
数据科学是一个竞争激烈的领域,人们正在迅速积累越来越多的技能和经验。这导致机器学习工程师的工作要求越来越多,因此我对2020年的建议是,所有的数据科学家也需要成为开发人员。
为了保持竞争力,一定要为新工作方式带来的新工具学习做好准备。
[caption id="attachment_49254" align="aligncenter" width="950"]
为2020年数据就业市场更新你的技能![/caption]
1. Agile
Agile是一种组织工作的方法,已经被开发团队大量使用。数据科学的角色越来越多地由那些最初的技能是纯软件开发的人来扮演,这就产生了机器学习工程师的角色。
[caption id="attachment_49255" align="aligncenter" width="951"]
Post-its和Agile似乎是并驾齐驱的[/caption]
越来越多的数据科学家/机器学习工程师将转型为开发人员:不断改进现有的代码库中的机器学习元素。
对于这种类型的角色,数据科学家必须了解基于Scrum方法的敏捷工作方式。它为不同的人定义了几个角色,这个角色定义确保了持续的改进和顺利地实施。
2. Github
Git和Github是为开发人员提供的软件,在管理不同版本的软件时非常有用。它们跟踪对代码库所做的所有更改,此外,当多个开发人员在同一时间对同一项目进行更改时,它们还增加了协作的真正便利。
[caption id="attachment_49256" align="aligncenter" width="859"]
GitHub是个不错的选择[/caption]
随着数据科学家的角色变得越来越偏重于开发,处理这些开发工具就成为了关键。Git正成为一项严肃的工作要求,要适应使用Git的最佳实践需要时间。当您独自一人或与他人合作时,很容易开始使用Git,但是当您加入一个有Git专家的团队,而您仍然是一个新手时,您可能会比您想象的更加困难。
[caption id="attachment_49257" align="aligncenter" width="719"]
Git是GitHub真正需要掌握的技能[/caption]
3.工业化
数据科学也在改变的是我们思考项目的方式。数据科学家仍然是用机器学习来回答商业问题的人,一如既往。但是,数据科学项目越来越多地是为生产系统开发的,例如作为大型软件中的微服务。
[caption id="attachment_49258" align="aligncenter" width="921"]
AWS是最大的云供应商[/caption]
与此同时,高级模型的CPU和RAM消耗越来越大,特别是在处理神经网络和深度学习时。
对于数据科学家的工作要求,不仅要考虑模型的准确性,还要考虑项目的执行时间或其他工业化方面,这一点变得越来越重要。
[caption id="attachment_49259" align="aligncenter" width="320"]
谷歌也有云服务,就像微软(Microsoft)一样[/caption]
4. 云与大数据
虽然机器学习的产业化正成为数据科学家的一个更严重的约束,它也成为数据工程师乃至整个it行业的严重约束。
[caption id="attachment_49263" align="aligncenter" width="959"]
著名漫画(来源:https://www.cyberciti.biz/humor/dad-what-are-clouds-made-of-in-it/)[/caption]
当数据科学家可以致力于减少模型所需的时间时,IT人员可以通过改变速度更快的计算服务来做出贡献,这些计算服务通常可以通过以下一种或两种方式获得:
云:将计算资源转移到外部供应商,如AWS、Microsoft Azure或Google Cloud,可以很容易地建立一个可以从远程访问的非常快速的机器学习环境。这就要求数据科学家对云功能有一个基本的了解,例如:使用远程服务器而不是自己的计算机,或者使用Linux而不是Windows/Mac。
[caption id="attachment_49260" align="aligncenter" width="955"]
PySpark正在为并行(大数据)系统编写Python[/caption]
大数据:它使用Hadoop和Spark的第二个优点是速度更快,这两个工具允许同时在许多计算机上并行处理任务(工作节点)。这要求使用不同的方法来实现作为数据科学家的模型,因为您的代码必须允许并行执行。
5. NLP,神经网络和深度学习
最近,数据科学家仍然认为NLP和图像识别仅仅是数据科学的专业,并非所有人都必须掌握。
[caption id="attachment_49261" align="aligncenter" width="1029"]
你需要理解深度学习:基于人脑思想的机器学习[/caption]
但是,图像分类和NLP的用例越来越频繁,甚至在“常规”业务中也是如此。在目前的情况下,对这种模式至少没有基本的了解已经成为不可接受的。
即使您在工作中没有此类模型的直接应用程序,也可以很容易地找到实际操作的项目,并使您能够理解图像和文本项目中所需的步骤。
原文链接:https://towardsdatascience.com/top-5-must-have-data-science-skills-for-2020-a5a53226b168