数据可视化在机器学习中的作用

原文：https://pub.towardsai.net/role-of-data-visualization-in-machine-learning-a6dd62ad1082?source=collection_archive---------1-----------------------

数据可视化、数据科学、机器学习

数据可视化在从数据分析到模型构建、测试、评估和选择的机器学习中起着不可或缺的作用

Benjamin O. Tayo 的图片

一.导言

数据可视化是数据科学最重要的分支之一。它是用来分析和研究不同变量之间关系的主要工具之一。数据可视化可用于描述性分析。数据可视化也用于机器学习中进行数据预处理和分析；特征选择；模型构建；模型测试；和模型评估。

在本文中，我们说明了数据可视化在机器学习过程中的作用。为了便于说明，我们将使用游轮数据集cruise _ ship _ info . CSV**。**本文的数据集和 Jupyter 笔记本可以从这里下载:https://github . com/bot 13956/Machine _ Learning _ Process _ Tutorial。

二。数据分析

在这里，我们使用数据可视化来研究特征之间的关系，以及预测变量和目标变量之间的相关性。图 1 中的配对图显示了数据集中特征之间的关系。我们的目标变量是船员变量。

图一。显示数据集中要素之间关系的 Pairplot。图片来源:Benjamin O. Tayo

从图 1 的的视觉检查中，我们看到船员变量与 4 个预测变量强烈正相关，即:吨位、乘客、长度和客舱。

为了进一步量化机组人员变量和 4 个预测变量(吨位、乘客、长度和客舱)之间的相关程度，可以生成协方差矩阵图，如下图图 2 所示。

图二。显示数据集中要素之间相关系数的协方差矩阵图。图片来源:Benjamin O. Tayo

从上面的协方差矩阵图中，我们看到机组人员变量与 4 个预测变量有很强的相关性(相关系数≥ 0.6):吨位、乘客、长度和客舱。

在选择了对模型构建很重要的预测变量后，可以以表格形式显示和可视化最终数据集。

cols_selected = ['Tonnage', 'passengers', 'length', 'cabins','crew']df[cols_selected].head()

图 3 。数据集的表格形式(前 5 行)，显示特征变量和目标变量。Benjamin O. Tayo 的图片

三世。模型建造

然后可以建立一个简单线性回归模型，使用 4 个目标变量吨位、乘客、长度和客舱来预测船员变量。同样，我们可以使用数据可视化来比较实际和预测的机组人员值，如下图图 4 所示。

图 4 。使用多元回归分析的机组变量的理想图和拟合图。Benjamin O. Tayo 的图片

四。模型评估和选择

我们可以实现三种不同的回归模型 : 线性回归(LR) ，近邻回归(KNR) ，支持向量回归(SVR)；同样，数据可视化可用于显示最终结果，如下图图 5** 所示。**

图 5 。不同回归模型的平均交叉验证显示。Benjamin O. Tayo 的图片

从图 5 中，我们观察到线性回归和支持向量回归几乎处于同一水平，并且优于 KNeighbors 回归。因此，最终选择的模型可以是线性回归或支持向量回归。

动词（verb 的缩写）总结和结论

总之，我们已经讨论了数据可视化在机器学习中的作用。我们已经表明，从数据预处理到数据分析、特征选择、模型构建、模型测试和模型评估，数据可视化在机器学习过程中起着至关重要的作用。建议在建立模型时，在整个机器学习过程中使用数据可视化，因为它有助于可视化中间结果，以确保在模型建立过程中没有错误或不一致。

其他数据科学/机器学习资源

数据科学最低要求:开始从事数据科学工作需要知道的 10 项基本技能

数据科学课程

机器学习的基本数学技能

进入数据科学的 5 个最佳学位

数据科学的理论基础——我应该关心还是仅仅关注实践技能？

如有疑问，请发邮件给我:benjaminobi@gmail.com

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

role-of-data-visualization-in-machine-learning-a6dd62ad1082.md

role-of-data-visualization-in-machine-learning-a6dd62ad1082.md

数据可视化在机器学习中的作用

数据可视化、数据科学、机器学习

数据可视化在从数据分析到模型构建、测试、评估和选择的机器学习中起着不可或缺的作用

一.导言

二。数据分析

三世。模型建造

四。模型评估和选择

动词（verb 的缩写）总结和结论

其他数据科学/机器学习资源

Files

role-of-data-visualization-in-machine-learning-a6dd62ad1082.md

Latest commit

History

role-of-data-visualization-in-machine-learning-a6dd62ad1082.md

File metadata and controls

数据可视化在机器学习中的作用

数据可视化、数据科学、机器学习

数据可视化在从数据分析到模型构建、测试、评估和选择的机器学习中起着不可或缺的作用

一.导言

二。数据分析

三世。模型建造

四。模型评估和选择

动词 （verb 的缩写）总结和结论

其他数据科学/机器学习资源

动词（verb 的缩写）总结和结论