Skip to content

Latest commit

 

History

History
55 lines (28 loc) · 6.28 KB

list-of-important-libraries-for-machine-learning-and-data-science-in-python-23709eb7875e.md

File metadata and controls

55 lines (28 loc) · 6.28 KB

Python 中机器学习和数据科学的重要库列表

原文:https://pub.towardsai.net/list-of-important-libraries-for-machine-learning-and-data-science-in-python-23709eb7875e?source=collection_archive---------0-----------------------

对于数据科学领域的专业人员来说,理解 python 和机器学习中各种库的使用非常方便。它让数据科学家或机器学习工程师的生活变得更加轻松。

戴维·克洛德在 Unsplash 上的照片

在数据科学和机器学习领域攻读硕士的候选人需求量很大,尤其是在汽车零售行业。此外,拥有该领域的经验可以为你胜任这些角色增加很多可信度和信任度。网上有大量的数据科学课程教授该领域的基础知识,它们让候选人做好了在日常生活中使用机器学习的准备。

当我们谈到机器学习的时候,我们总是会考虑使用 Python 这样的语言的可能性。还有其他语言,如 Java T21 或 C 语言,但它们在机器学习应用方面的潜力有限。Python 正在大量的应用程序中使用,并且正在取代其他编程语言。因此,最好的办法是使用 python 中的各种库,以便它们可以方便地用于我们的机器学习用例。与手动键入代码并从头开始做事情相比,使用库可以使该领域的专业人员更快、更容易地开发机器学习代码。

因此,现在让我们来看一下 python 中分别对机器学习数据可视化有用的所有库的列表。以下是机器学习领域中最常用的库。

库列表

保罗·梅尔基在 Unsplash 上拍摄的照片

Pandas: 它用于机器学习和数据科学,读取和操作 Python 中最常用的数据帧。它可以执行大量的任务,从以的形式读取文件开始。csv'** 和**'。xlsx'** 和也分别执行数据可视化。它是在机器学习项目开始时经常使用的初始库。**

**Matplotlib: 它可以用于可视化我们的数据集,并检查它是否包含任何空值或缺失值,或者是否还有极值(异常值)。此外,它还可用于确定各种特征在决定结果(目标变量)时的重要性。它在读取数据和执行探索性数据分析(可视化)之后使用。**

这是另一个与 matplotlib 有相似用例的库。然而,当我们一起使用它们时,会有细微的差别。Seaborn 主要用于复杂的数据可视化,而不仅仅是使用 matplotlib 提供的 2D 图。考虑并注意到 seaborn 构建在 matplotlib 之上是为了可视化,这也是一件好事。因此,seaborn 的主要目的是帮助程序员以大量的方式将数据可视化。

NumPy: 这是一个用于以数组形式高效执行计算的库。在机器学习中,我们经常处理规模很大的数据集,执行低效的计算会浪费大量时间,尤其是在达到部署的最佳模型之前执行超参数调整时。在这种情况下,考虑有效执行计算的方法对于机器学习项目的开发周期可能是有用的。使用 NumPy 可以帮助非常有效地执行计算,并且是大多数数据科学家和机器学习工程师使用的友好工具。

**TensorFlow: 深度学习的应用非常丰富,尤其是在任务方面,比如计算机视觉自然语言处理。如果考虑使用上述工具,您最好的选择是使用 TensorFlow,因为它提供了大量用于深度学习的工具和技术。还有对 TensorFlow 的 GPU 支持,允许专业人员轻松地并行化他们的工作流,以最少的精力和时间进行培训和模型预测。因此,这个库可以方便地用于深度学习应用。**

如果你正在深度学习的帮助下开发一个应用,你可能不需要额外的定制工具,比如调整学习率或许多其他工具。在这种情况下,Keras 可以成为 TensorFlow 的一个很好的替代品。在后者中,在运行深度学习模型之前,人们将不得不编写大量的定义,并且还要设置额外的约束。另一方面,基于 TensorFlow 构建的 Keras 更容易部署,并且只需有限的代码就可以运行,不需要太多的定制功能。****

**自然语言处理工具包(NLTK): 如果你的目标是构建能够在自然语言处理的帮助下回答问题的聊天机器人,使用这个库会很棒。它包含一个属性列表,这些属性用于预处理句子,并删除对文本没有太大意义的各种单词。使用 NLTK 库还可以做其他事情,例如将给定的字符串转换为向量形式,以便机器学习模型可以理解它进行预测。**

**Scikit-Learn: 当然,机器学习中最有用最重要的库就是刚才提到的那个。它包含所有机器学习模型的列表,这些模型可以被导入并用于我们对训练和测试数据的预测。此外,还可以执行其他任务,例如在将数据集提供给模型进行预测之前对数据集进行特征工程设计。互联网上有大量关于这个库的文档,为了便于理解,还提供了许多例子。**

结论

看了一下库列表后,我希望它能让开发者更容易地使用信息,尽可能高效地执行任务。牢牢掌握这些库可以让数据科学家快速迭代,并在短时间内开发出更强大的模型,给企业和利益相关者留下深刻印象。感谢您花时间阅读这篇文章。

如果你想获得更多关于我的最新文章的更新,并且每月只需 5 美元就可以无限制地访问中型文章,请随时使用下面的链接来添加你对我工作的支持。谢了。

https://suhas-maddali007.medium.com/membership

以下是您联系我或查看我作品的方式。

GitHub: 苏哈斯·马达利(Suhas Maddali)(github.com)

****YouTube:https://www.youtube.com/channel/UCymdyoyJBC_i7QVfbrIs-4Q】T2

LinkedIn: (1)苏哈斯·马达利,东北大学,数据科学| LinkedIn

中等: 苏哈斯·马达利—中等