Skip to content

Latest commit

 

History

History
67 lines (34 loc) · 4.2 KB

classification-algorithms-random-forest-classifier-a7276d713b6a.md

File metadata and controls

67 lines (34 loc) · 4.2 KB

分类算法—随机森林分类器

原文:https://pub.towardsai.net/classification-algorithms-random-forest-classifier-a7276d713b6a?source=collection_archive---------4-----------------------

Unsplashveeterzy 拍摄的照片

随机森林算法是一种监督学习模型。它使用已标记的数据来学习如何对未标记的数据进行分类[ 1 ]。这是决策树的一种扩展。随机森林与决策树或 bagging 分类器具有几乎相同的超参数。随机森林增加了模型的随机性。它不是在分割节点时搜索最重要的特征,而是在随机特征子集[ 2 ]中搜索最佳特征。

我们使用相同的原始数据集构建多个数据集,但是使用允许重复记录条目的记录组合。这个新创建的数据集允许重复来自原始集合的元组,被称为自举数据集。

随机森林算法的步骤:

1.创建引导数据集

2.使用自举数据集创建决策树,每一步都使用变量的随机子集

3.构建多重决策树

4.通过所有的树传递测试记录

创建引导数据集

考虑下面的例子,其中表中显示的四个属性,即喷嚏、咳嗽、发烧和身体疼痛,有助于确定其 COVID 是否为阳性。原始数据集中总共包含 4 名患者的详细信息。我们创建了一个引导数据集,由原始数据集中相似的记录总数组成,但是我们复制了引导数据集中的第 3 条记录。

使用自举数据集创建决策树,每一步都使用随机变量子集

在决策节点的创建过程中,我们计算所有属性的基尼系数,并得出结论,具有最低基尼系数的属性将成为决策节点。然而,在随机森林中,我们考虑属性的子集并形成决策节点。

在下面的例子中,让我们假设根节点或决策节点选择喷嚏作为节点,因为与其他节点相比,它具有较少的基尼系数。

现在,我们把重点放在寻找喷嚏决策节点的左侧节点的属性上。在这种情况下,我们只考虑两个变量而不是三个变量的基尼系数。因此,我们考虑咳嗽和身体疼痛的任何属性的最小基尼系数。在这种情况下,观察到咳嗽的杂质最小,因此咳嗽属性与决策节点喷嚏的左节点相关联。

这样,通过在每个阶段采用不同的变量集,我们构建了决策树。

构建多棵决策树

现在,通过使用原始数据集中的不同记录,我们构建了不同的自举数据集。随后,通过在各个决策树的构建过程中的每一步采用不同的属性,这些自举数据集被转换成各种决策树。

通过所有树的测试记录

现在获取下图所示的测试记录,并遍历之前构建的所有决策树。计算树的结果,无论它是 COVID (1)还是非 Covid (0)。考虑所有树的输出,并选择具有最大频率的输出值。在下面的例子中,测试记录通过所有的决策树,大多数决策树给出的输出是 1,因此我们得出结论,对于给定的测试记录,输出是 1。

希望这对大家有帮助!

感谢阅读!

参考

[1]用于机器学习的随机森林算法,https://medium . com/capital-one-tech/Random-Forest-Algorithm-for-Machine-Learning-C4 B2 c8 cc 9 feb

[2]随机森林算法完全指南,内置,https://builtin.com/data-science/random-forest-algorithm