Benjamin O. Tayo 的图片
数据可视化是数据科学最重要的分支之一。它是用来分析和研究不同变量之间关系的主要工具之一。数据可视化可用于描述性分析。数据可视化也用于机器学习中进行数据预处理和分析;特征选择;模型构建;模型测试;和模型评估。
在本文中,我们说明了数据可视化在机器学习过程中的作用。为了便于说明,我们将使用游轮数据集cruise _ ship _ info . CSV**。**本文的数据集和 Jupyter 笔记本可以从这里下载:https://github . com/bot 13956/Machine _ Learning _ Process _ Tutorial。
在这里,我们使用数据可视化来研究特征之间的关系,以及预测变量和目标变量之间的相关性。图 1 中的配对图显示了数据集中特征之间的关系。我们的目标变量是船员变量。
图一。显示数据集中要素之间关系的 Pairplot。图片来源:Benjamin O. Tayo
从图 1 的的视觉检查中,我们看到船员变量与 4 个预测变量强烈正相关,即:吨位、乘客、长度和客舱。
为了进一步量化机组人员变量和 4 个预测变量(吨位、乘客、长度和客舱)之间的相关程度,可以生成协方差矩阵图,如下图图 2 所示。
图二。显示数据集中要素之间相关系数的协方差矩阵图。图片来源:Benjamin O. Tayo
从上面的协方差矩阵图中,我们看到机组人员变量与 4 个预测变量有很强的相关性(相关系数≥ 0.6):吨位、乘客、长度和客舱。
在选择了对模型构建很重要的预测变量后,可以以表格形式显示和可视化最终数据集。
cols_selected = ['Tonnage', 'passengers', 'length', 'cabins','crew']df[cols_selected].head()
图 3 。数据集的表格形式(前 5 行),显示特征变量和目标变量。Benjamin O. Tayo 的图片
然后可以建立一个简单线性回归模型,使用 4 个目标变量吨位、乘客、长度和客舱来预测船员变量。同样,我们可以使用数据可视化来比较实际和预测的机组人员值,如下图图 4 所示。
图 4 。使用多元回归分析的机组变量的理想图和拟合图。Benjamin O. Tayo 的图片
我们可以实现三种不同的回归模型 : 线性回归(LR) ,近邻回归(KNR) ,支持向量回归(SVR);同样,数据可视化可用于显示最终结果,如下图图 5** 所示。**
图 5 。不同回归模型的平均交叉验证显示。Benjamin O. Tayo 的图片
从图 5 中,我们观察到线性回归和支持向量回归几乎处于同一水平,并且优于 KNeighbors 回归。因此,最终选择的模型可以是线性回归或支持向量回归。
总之,我们已经讨论了数据可视化在机器学习中的作用。我们已经表明,从数据预处理到数据分析、特征选择、模型构建、模型测试和模型评估,数据可视化在机器学习过程中起着至关重要的作用。建议在建立模型时,在整个机器学习过程中使用数据可视化,因为它有助于可视化中间结果,以确保在模型建立过程中没有错误或不一致。
数据科学最低要求:开始从事数据科学工作需要知道的 10 项基本技能
如有疑问,请发邮件给我:benjaminobi@gmail.com