Skip to content

Latest commit

 

History

History
105 lines (59 loc) · 8.85 KB

5-popular-machine-learning-algorithms-bbb7c7358fb2.md

File metadata and controls

105 lines (59 loc) · 8.85 KB

5 种流行的机器学习算法

原文:https://pub.towardsai.net/5-popular-machine-learning-algorithms-bbb7c7358fb2?source=collection_archive---------0-----------------------

来源:图片由 Pixabay 上的 GDJ 提供

机器学习算法在概念上类似于计算机科学中的任何其他算法。ML 算法是一种数据驱动的过程,用于创建生产就绪的机器学习模型。

如果你认为机器学习是完成一项工作的火车,那么机器学习模型就是推动火车的引擎。最有效的机器学习算法由所讨论的业务问题、数据集的复杂性和可用资源决定。

机器学习算法的类型?

监督机器学习算法

基于一组数据使用机器学习生成预测的算法。一个监督的机器学习算法在数据点的值标签中寻找模式。

无监督机器学习算法

数据点没有相关的标签。这些机器学习算法对数据进行聚类,以解释其结构,并使复杂的数据看起来简单,有组织,便于研究。

半监督学习算法

半监督学习是一种机器学习技术,涉及对少量已标记数据和大量未标记数据的训练。半监督学习是介于无监督(无标注训练数据)和有监督 学习(只有标注训练数据)之间的一种学习。

机器学习模型备忘单

顶级机器学习算法

1.线性回归

线性回归法说明了两个变量之间的关系以及一个变量的变化对另一个变量的影响。该算法说明了修改自变量对因变量的影响。自变量被认为是解释变量,因为它们提供了影响因变量的信息。通常,因变量被称为兴趣因子或预测因子。线性回归是一种用于估计实际连续值的技术。线性回归最常见的应用是房地产价格预测、销售预测、天气预测和员工工资估算。线性回归的基本目标是找到预测值之间的最佳拟合线。线性回归方程为 Y=a*x+b,其中 Y 为因变量,x 表示自变量的集合。斜率用 a 表示,截距用 b 表示。

示例:

  • 销售预测

线性回归常用于商业中基于趋势的销售预测。如果一家企业的销售额逐月持续增长,那么对月度销售数据的线性回归研究可以帮助该企业预测未来的销售额。

  • 风险评估

线性回归有助于保险或金融领域的风险评估。健康保险公司可能会进行线性回归分析,以确定每个客户关于其年龄的索赔数量。这项研究有助于保险公司确定老年消费者更倾向于提出保险索赔。这些分析结果对于做出关键业务选择至关重要,并用于说明风险。

2.逻辑回归

该算法使用逻辑函数,通过预测变量来预测分类因变量的结果。决定单个实验结果的概率或机会被表示为解释因素的函数。基于所提供的预测因子, 逻辑回归 算法帮助估计落入分类因变量的某一水平的可能性。

示例:

  • 在流行病学中,逻辑回归技术估计疾病的风险因素,并设计适当的预防措施。
  • 它们被用来预测政治选举的结果,或者预测一个人是否会投票给某个特定的候选人。
  • 它用于将一组单词分为名词、代词、动词和形容词。
  • 在天气预报中,它被用来预测下雨的可能性。
  • 它们在信用评级系统中用于风险管理目的,以预测账户的违约情况。

Sci-Kit Learn 是一个 Python 数据科学库,实现了逻辑回归机器学习算法。

3.决策图表

决策树是一种图形表示,它采用分支来说明在特定情况下选择的所有潜在结果。决策树的内部节点代表一个属性测试。树的每个分支反映测试的结果,叶节点代表特定的类标签,即在计算所有属性后做出的决定。从根到叶节点的路线用于说明分类规则。

分类树- 这些是最常见的 决策树 用于根据响应变量对数据集进行分类。一般来说,当答案变量是分类变量时,它们被使用。

回归树- 当响应或目标变量一致或为数值时,使用回归树。与分类相反,它们经常用于预测问题。

另外,决策树根据目标变量的类型可以分为两种:连续变量决策树和二元变量决策树。目标变量用于确定特定问题所需的决策树的类型。

例子

  • 决策树是一种典型的机器学习算法,在金融期权定价中非常有用。
  • 遥感是基于决策树模式识别的一个应用领域。
  • 银行采用决策树算法,根据贷款申请人拖欠还款的可能性对其进行分类。

4.朴素贝叶斯算法

朴素贝叶斯 分类器是通过相似性分类的最常见的机器学习技术之一。它基于众所周知的贝叶斯概率定理,用于开发疾病预测和文档分类的机器学习模型。它是基于主观内容分析的贝叶斯概率定理的精确单词分类。这个分类算法利用贝叶斯定理来计算概率。朴素贝叶斯算法背后的基本前提是所有特征都被认为是相互独立的。这是一个相当简单的方法,很容易实现。这对于大型数据集尤其有利,并且可以用于文本数据集。

例子

  • 脸书使用情绪分析来确定一个状态帖子表达的是积极的还是消极的情绪。
  • 文档分类——Google 利用文档分类来索引文档,并确定它们的相关性等级,称为 PageRank。PageRank 考虑在数据库中被指定为重要的页面,这些页面已经使用文档分类方法进行了处理和分类。
  • 朴素贝叶斯算法也被用来对科技、娱乐、体育和政治新闻进行分类。
  • 垃圾邮件过滤——Google Mail 利用朴素贝叶斯算法来确定一封邮件是否是垃圾邮件。

5.人工神经网络算法

它是基于大脑模拟的 人工智能 中的一个区域。这是一种由相互连接的神经元组成的计算网络。这种链接结构用于为回归和分类问题提供各种预测。人工神经网络包括许多层:输入层、隐藏层和输出层。隐藏层的数量可以多于一个。隐藏层是神经网络进行计算的地方。这里包括实际的权重和偏差方程,以及激活函数的应用。这些激活功能对于构建和调整输出至关重要,主要用于解决非线性问题,如手写识别。人工神经网络的计算成本很高,因为它们需要复杂的数学计算。

例子

  • 金融机构使用机器学习算法来改进贷款申请评估、债券评级、目标营销和信用评分。它们还被用于检测信用卡欺诈案件。
  • Buzzfeed 使用用于图像识别的人工神经网络技术来组织和搜索视频和图片。
  • 谷歌采用人工 神经网络 进行语音识别、图像识别和其他模式识别应用(如手写识别)。人工神经网络被谷歌用来检测垃圾邮件和各种其他目的。
  • 人工神经网络是机器人工厂中改变温度设置、操作设备和诊断故障的理想选择。

最后的想法

在本文中,我们讨论了机器学习的各种类型及其相关算法。机器学习至关重要,因为它为企业提供了对消费者行为和运营模式趋势的洞察,并有助于创造新产品。如今,一些主要企业,如脸书、谷歌和优步,已经将机器学习作为其运营的关键组成部分。对于许多企业来说,机器学习已经成为一个重要的竞争优势。

算法用于识别模式,如果不先尝试许多不同的技术,即使是最有经验的数据科学家也无法预测哪种算法性能最好。虽然还有很多机器学习算法,但本文中描述的算法是最常用的。