解释监督学习和非监督学习的主要区别。
当我开始学习数据科学和机器学习时,我首先发现的是不同类型的学习及其相关算法。在 ML 领域有三种主要的学习类型:有监督的、无监督的和强化的。然而,监督和非监督学习是工业中最常见的类型,强化学习较少。在这篇非常短的文章中,我们将探讨这两种学习类型之间的差异,并列出属于每一类的常见算法。
这是工业中最常用的类型,指的是标有输出的数据。通俗地说,这意味着我们的数据集有一个已知的输出。因此,监督学习的目标是使最佳模型与给定数据中的一组已知输入和输出相匹配。这使您能够从过去的经验中最大限度地提高性能,并发现哪些功能最能推动决策的关键见解。
监督学习主要处理两类问题:分类和回归。
当标记的输出为真或假时,例如,是否购买汽车,这是一个分类问题,因为结果是二进制 (1 或 0)。分类算法包括逻辑回归、支持向量机、决策树和神经网络。
如果数据有一个连续的输出,比如房价,那么我们就需要一个回归模型。算法包括线性回归、CatBoost 和回归决策树。
对于无监督学习,数据没有标签输出。在这种情况下,我们试图在没有任何固有标签或特征的数据中找到模式和结构,并且没有“正确的答案”与监督学习一样,非监督学习可以分为两类:聚类和关联。
这种方法就是将数据合并成具有相似特征的簇来寻找模式,因此它被称为聚类。常见的算法包括 K 均值聚类。
在这项技术中,我们试图找到数据集特征之间的隐藏规则。一种简单的思考方式是,我们试图测量可能给出相同输出的特性之间的相关性。使用关联的常见算法是 Apriori 算法。
这也是另一种类型的学习,它结合了无监督和监督学习的理念,被“巧妙地”称为半监督学习。这适用于我们通常有少量标记数据而有大量未标记数据的情况。我不会深入讨论这个范例,但是感兴趣的读者可以找到许多关于它的博客和文章。
在这篇短文中,我们描述并解释了监督学习和非监督学习的区别。正如我刚才展示的,这一切都归结于数据是否有一个标记输出。
(所有表情符号由 OpenMoji 设计——开源表情符号和图标项目。许可证: CC BY-SA 4.0