由paweczerwi ski在 Unsplash 上拍摄的照片
在数据科学领域重新开始有时会很有挑战性。有很多课程承诺教你一切,从如何编码到什么是主成分分析(PCA)或训练深度神经网络。他们中的一些人可能会。但在我看来,有一些书可以让任何一个数据科学家受益匪浅。列出所有我认为可能有用的书籍会让读者不知从何下手。此外,我相信有大量的资源可以找到这方面的书籍。在这篇文章中,我将只关注前三本书,在我看来,这三本书不仅足以学习基础知识,而且远远超出基础知识。这些书相当经典(但还是很切题)。如果你已经是一名正在实践的数据科学家,想要了解深度学习的最新发展,那么这可能不会对你有太大帮助,但仍可能为你提供一些资源来更新基础知识。
这是我阅读的第一本了解和学习机器学习的书籍。特别是,我喜欢描述决策树如何工作的页面;你知道可能更流行的随机森林方法的构建模块。因此,它教你递归地计算数据中每个属性/特征的熵(信息量)。我鼓励你阅读这一部分,因为它就像教学一样简单明了——请看第 52 页起。语言很简单,并且有大量的细节和例子带着你,向你展示算法实际上如何从数据中学习模式。
这本书从统计学的角度探讨了机器学习,我认为这对于理解机器学习算法实际工作的原因、什么可能出错以及理解拥有良好数据的重要性至关重要。这本书在线性模型上花了很多页,但这是值得的,因为你会慢慢了解这些概念。但不要以为这仅仅是这样。它涵盖了包括神经网络在内的一切,即使没有进入深度学习,反正是“最近”的趋势!提供的例子和相关的图表有助于读者掌握概念和理解所描述的方法。只是作为一个说明,这本书包括一些数学和相应的数学符号,但不要因此而分心。只要拥抱如何优雅的公式可以抓住部分的本质。此外,描述应该足以理解该方法。读它肯定是值得的。它还可以作为数据科学从业者的参考,提醒您模型假设、模型之间的差异,并作为一般的数据科学复习工具。
这本书不需要介绍。有史以来最好的机器学习书籍之一,也是几年前英国伦敦帝国理工学院机器学习课程的推荐教材。从机器学习中至关重要的概念开始,如维数灾难、概率和分布、决策理论和信息论,到机器学习所需的更高级的数学概念。为了理解更高级的概念,数学和统计学知识会很有用。然而,这是你收藏中的必备书籍。
我很想知道科学家们已经阅读了哪些新数据,并认为它们是真正的例外。所以请随时留下你的评论!
您可能还会对以下内容感兴趣:
medium.com](https://medium.com/towards-artificial-intelligence/top-3-nlp-use-cases-a-data-scientist-should-know-637eacc3d1d4) [## 数据科学家最常被问到的 3 个 Python 面试问题
towardsdatascience.com](https://towardsdatascience.com/3-most-asked-python-interview-questions-for-data-scientists-1a2ad63ebe56)