为了成为一名数据科学家,一个人可能需要发展或获得新的技能,以便熟练地完成工作。本文将探讨成功获得数据科学家角色并以胜任的方式开展工作所需的技能。
那么,成为一名数据科学家需要具备哪些技能呢?
- Python
- R
- 数据库& SQL
- 数学(多元微积分&线性代数)
- 概率&统计
- 机器学习
- 深度学习
- 交流
在本文的其余部分,我们将更详细地了解这些技能。我将涵盖你需要知道的,以便在这些技能中变得胜任。我还会亲自推荐一些资源,告诉你如何开始学习这些技能,而不必回到大学。
作为一名数据科学家,你需要一个工具来提取、讨论和分析数据。对许多人来说,这个工具以脚本语言的形式出现。数据科学中最流行的两个是 Python 和 r。
两种语言都有使用它们的优点和缺点。然而,Python 正成为两者中更受欢迎的选择。的一个主要原因是它适用于软件开发的其他领域,如数据工程和 web 开发。
对于初学者,我建议先学习 Python,因为我认为它在你的数据科学之旅中是不可避免的,然后再学习一些 R 的基础知识。建议你开始学习变量、控制语句、函数、类等基础知识。
对于开始学习 Python,我推荐的两个很好的资源是官方 Python 教程和代码学院的 Python 课程。
在您熟悉 Python 的基础知识之后,您可以继续学习数据科学中常用的 Python 库,如 Numpy、Pandas、Matplotlib 和 Scikit-learn。
像 Python 一样,R 可以用来提取、争论和分析数据。在您的数据科学工作中完全避免使用 R,而只使用 Python 是可能的。但是,您可能会遇到一些已经用 R 实现的有用的数据科学模型。
出于这个原因,我仍然建议您学习 R 的基础知识,比如数据框架、聚合函数、绘图以及如何进行一些统计操作。
涵盖这些主题的好课程是 Codeacademy 的 Learn R 课程。
数据库可以定义为有组织的数据集合。由于数据存储在数据库中,因此数据科学家必须能够与数据库进行交互,以便提取他们分析所需的数据。
数据库可以分为两种不同的类型关系型和非关系型。关系数据库通过使用表以结构化的方式存储数据。这些表之间可以有关系或依赖关系。
用于与关系数据库交互的编程语言称为 SQL,它代表结构化查询语言。SQL 数据库的例子包括 MySQL 和 Postgres。
对于希望获得第一个角色的数据科学家,我建议首先主要关注关系数据库,因为它仍然是最常用的数据库类型。您应该学习如何查询数据、过滤、执行聚合和连接表。
我推荐学习关系数据库和 SQL 的一个好资源是 Datacamp 的 SQL 基础教程。
因为数据科学中使用的许多算法基本上都是基于微积分&线性代数,所以熟悉这些主题是很重要的。然而,重要的是不要在这一点上被错综复杂的数学弄得不知所措。
相反,我建议采用自上而下的方法,在需要知道的基础上学习概念。我是说,了解多元微积分中的偏导数和线性代数中的矩阵乘法、特征向量和特征值是很有用的。
卡恩学院是学习这两个科目的一个很好的资源。涵盖线性代数和多元微积分课程中的内容应该为以后处理机器学习之类的科目提供足够的基础。
概率是数学的一个分支,研究事件发生的可能性。统计学是对收集、审查、分析数据并从中得出结论的方法的研究。从这两个定义可以得出,对于一个数据科学家来说,对概率和统计有一个坚实的理解是至关重要的。
概率与统计中你应该熟悉的一些主题是假设检验、概率分布、线性回归和置信区间。卡恩学院的概率&统计视频是了解这些主题的绝佳资源。
机器学习是让计算机在没有明确编程的情况下行动的科学。机器学习算法因其自学习特性,在数据科学中被广泛使用。数据科学家可以将数据输入到机器学习算法中,它将输出预测,而不必手工制定如何得出结论的规则。
由于机器学习是数据科学家工具箱的主要部分,他们应该理解该主题中的许多概念。这些概念包括不同类型的机器学习、偏差-方差权衡、正则化、降维、如何评估模型以及许多机器学习算法如何工作。
就学习哪些算法而言,一个好的起点是逻辑回归、k-means、决策树、集成方法和前馈神经网络。您还应该了解使用每种算法的利弊,以及它们最适合什么类型的数据。
为了开始学习机器学习,我会推荐吴恩达在 Coursera 上的机器学习课程。本课程涵盖了上述所有主题以及更多内容。也是我上的第一门关于机器学习的课程。
深度学习本质上是神经网络的重塑。神经网络是一系列模拟人脑操作的算法,用来识别大量数据之间的关系。虽然深度学习是机器学习的一个子集,但我觉得它是一个足够大的主题,值得单独一节。你可能在新闻中听说过深度学习,因为它是 deepfakes、无人驾驶汽车等技术背后的驱动力。
由于深度学习模型经常在许多预测任务中实现最先进的结果,因此难怪公司热衷于雇佣在该领域有知识的人。
你应该知道的深度学习中的概念包括前馈网络、激活函数、优化器、辍学、损失函数、卷积神经网络和递归神经网络。
假设你已经掌握了机器学习的基础知识,看一看吴恩达在 Coursera 上的深度学习专业化将是在这个问题上变得知识渊博的下一步。
最后但并非最不重要的是沟通技巧。虽然沟通技能是一种软技能,但对于数据科学家来说,它与上面提到的任何其他技能一样重要。作为一名数据科学家,您需要与业务中的多个利益相关方进行沟通。这些涉众可以是技术性的,也可以是非技术性的。
因此,你必须使你的沟通适合你的听众。做到这一点的一个方法是站在他们的角度,了解他们的技术背景,以及他们需要你提供哪些信息,以便他们能够继续有效地工作。
由此,你可以决定如何与你的听众交流。另一个考虑因素是确定如何显示数据。不同的图在显示不同类型的数据时各有利弊。花点时间考虑哪些情节效果最好,可以让你的演讲更吸引人,也更容易让观众理解。
在本文中,我们了解了一个人为了成为数据科学家而必须发展的一些最必要的技能。它介绍了为什么每项技能都很重要,你需要了解每项技能的哪些内容,以及如何开始学习这些技能。我希望这篇文章对你获得第一个或下一个数据科学家职位有所帮助。
原载于 2021 年 1 月 31 日【https://datasciencesamurai.com】。