科林·伯伦斯来自的图片
在 EDA 期间,你有没有厌倦过哪怕是为了一个简单的图,也要写多行代码?
您是否曾希望 jupyter 笔记本本身拥有基于推荐的交互式图表?
如果这是一个很大的是!
谢天谢地!我们现在有了新的 Python 库, Lux。
本文根据Doris Lee Jung-Lin 的*sessioninWiCDS*2021。**
LUX是一个用于智能视觉发现的 Python API,自带了一个内置的交互式 jupyter widget 。
- Lux 可以成为您的智能助手,使探索性数据分析的可视化方面实现自动化。
- 数据框显示在 jupyter 笔记本上后,只需点击一下,它就能提供强大的可视化抽象。
- Lux 是一种非常丰富的基于用户意图的语言。
Lux 库的主要意图是让可视化像加载数据帧一样简单。
交互式 Lux 小部件帮助用户快速浏览数据并查看重要的趋势和模式。它为用户提供建议以供进一步分析。Lux 还可以为那些你不清楚的数据创建可视化效果。
来源:作者图片
与 熊猫 配合得很好,你不必担心修改代码。事实上,Lux 是以这样一种方式开发的,它保留了 pandas 数据帧的语义。这意味着它的行为与熊猫指令本身同步。
太棒了,对吧!
让我们开始吧,让我们的智能视觉助手由 Lux 驱动。
- Lux 可以通过 PyPI 安装。
*****pip install lux-api*****
2.如果使用 conda ,Lux 可以通过,
*****conda install -c conda-forge lux-api*****
3.对于 jupyter 笔记本中的设置,您还需要添加以下扩展。
*****jupyter nbextension install --py luxwidget
jupyter nbextension enable --py luxwidget*****
就是这样!我们准备好出发了…
让我们考虑一个示例数据集来探索 Lux 库的特性。
我将使用来自 Kaggle 数据库的研究生入学数据集。
该数据集包含几个参数,这些参数在申请硕士课程时被认为是重要的。
数据字典
- GRE 成绩(满分 340 )
- 托福成绩(满分 120 )
- 大学评级(满分 5 分)
- 目的陈述和推荐信实力(满分 5 分)
- 本科 GPA(满分 10 分)
- 研究经验(0 或 1 )
- 录取几率(范围从 0 到 1 )
既然软件包已经成功安装。我们只需将 lux 库导入到我们的 jupyter 笔记本中。
让我们加载数据集并检查前 5 行。
来源:作者图片
检查数据集的形状。
*****(400, 9)*****
总共有 400 行和 9 列。
删除第一列Serial No.
并用info()
检查数据集的简明摘要
来源:作者图片
我们观察到数据集中所有 8 列的数据类型都是数字。
现在,我们来显示数据框并探索 Lux 微件。
来源:作者图片
当数据框显示时,Lux 默认为我们提供了 3 个标签,分别是关联、分布和发生。
让我们来了解一下这些
- 相关性
来源:作者图片
“相关性”选项卡显示数据集中存在的定量变量之间的关系。
它显示的顺序是从最相关的到最不相关的。
来源:作者图片
2。分布
来源:作者图片
“分布”选项卡显示数据集中定量变量的直方图。
它的显示顺序是从高倾斜到低倾斜。
来源:作者图片
3。事件
来源:作者图片
“事件”选项卡显示分类属性的条形图。
它遵循的顺序是最不均匀分布到均匀分布。
尽管我们的数据集不包含任何分类数据类型的特征。对于那些它认为可能对我们的分析有用的特性,它推荐了条形图。
假设您想了解某个特定特性或多个特性的更多信息。在intent
的帮助下,您可以获得与这些属性相关的所有可视化效果
lux 小部件不仅显示该功能的可视化效果。而且还会在Filter
和Enhance
选项的帮助下为您提供进一步分析的额外建议。
- 增强
lux 的增强功能为用户指定的可视化预期属性添加了一个附加属性。
它允许用户将添加属性的效果与预期的可视化效果进行比较。这类似于添加色调。
2。过滤器
该过滤器让用户可视化不同数据子集的预期属性。
下面的例子让我们更好的理解。
考虑一个属性 CGPA,****
*****df.intent=[“CGPA”]
df*****
1.增强一个属性的建议
当预期属性为 CGPA 时,增强选项卡建议,来源:作者提供的图片
当给定输入是一个特征“CGPA”时,增强选项卡将预期变量“CGPA”固定在 x 轴上,并通过与不同属性进行比较给出建议。
2.针对一个属性的过滤建议
当目标属性为 CGPA 时的过滤器选项卡建议,来源:按作者分类的图像
过滤器选项卡将预期变量“CGPA”固定在 x 轴上,并通过与数据集的不同子部分进行比较,为我们提供建议。****
考虑两个属性“托福成绩”和“ GRE 成绩”,****
*****df.intent=[“TOEFL Score”,”GRE Score”]
df*****
1.针对两个属性的增强建议
当预期属性是 TOEFEL 分数和 GRE 分数时,增强选项卡推荐,来源:作者图片
*******增强标签当给定的输入是两个属性“托福成绩”、“GRE 成绩”时。它将预期变量“托福分数”固定在 x 轴上,将“GRE 分数”固定在 y 轴上。然后通过与不同属性的比较,给我们推荐。***
2.过滤 建议为两个属性
当预期属性为 TOEFEL 分数和 GRE 分数时,筛选选项卡建议,来源:作者图片
*******过滤标签当给定输入是两个属性“托福成绩”、“GRE 成绩”时。它将预期变量“托福分数”固定在 x 轴上,将“GRE 分数”固定在 y 轴上。然后,它通过将两者与数据的不同子部分进行比较来给出建议。***
来源:作者图片
Lux 让分享可视化变得非常容易。要将可视化导出为静态 HTML,必须使用以下命令。
*****df.save_as_html(“File name.html”)*****
新的 Python 开源库无疑使数据探索变得更加容易。这篇文章展示了 Lux 是如何用最少的代码实现大部分可视化自动化的。它还解释了勒克司图书馆的一些突出特点。
Lux 项目现状:目前 Lux 处于早期开发阶段。
资源
要了解更多关于 Lux 库的信息,你可以在 lux-API 找到详细信息。
希望你喜欢阅读这篇文章!
请随时查看我在pranaviduvva at medium上的其他文章。
感谢阅读!