作者图片
在这个数据集中,我将对过去的贷款数据进行分类机器学习分析,这些数据是;
- k 最近邻(KNN)
- 决策图表
- 支持向量机
- 逻辑回归
Content Table· [Data Visualization](#7f67)
· [One hot encoding](#5891)
· [Feature Selection](#d45a)
· [Normalize Data](#c4ed)
· [Classification](#71cd)
∘ [K Nearest Neighbor](#b540)
∘ [Evaluation Metrics of KNN](#8b51)
∘ [Decision Tree](#8300)
∘ [Evaluation Metrics of Decision Tree](#5730)
∘ [Support Vector Machine](#83d7)
∘ [Evaluation Metrics of SVM](#5cc6)
∘ [Logistic Regression](#bf84)
∘ [Evaluation Metrics of Logistic Regression](#5f5d)
∘ [Model Evaluation using a Test set](#1eb5)
∘ [Jaccard Scores](#edfa)
∘ [F1 Scores](#8648)
∘ [Final Evaluation](#dd7e)
让我们加载必要的库;
作者图片
Loan_train.csv 数据集包括 346 名贷款已经还清或违约的客户的详细信息。
作者图片
让我们加载数据;
作者图片
看数据的形状,看全局总是有效的。
作者图片
现在,让我们修复数据框列类型。
作者图片
让我们看看每个类在我们的数据集中有多少
作者图片
让我们绘制一些列来更好地理解
作者图片
作者图片
让我们看看人们在一周的哪一天得到贷款
作者图片
我们看到在周末获得贷款的人没有还清贷款,所以让我们使用特征二值化来设置小于第 4 天的阈值
作者图片
现在是时候将分类特征改为数字特征了,因为我们将使用机器学习算法。
作者图片
86 %的女性偿还贷款,而只有 73 %的男性偿还贷款
让我们将男性转换为 0,女性转换为 1:
作者图片
现在让我们看看教育专栏。
作者图片
作者图片——这些是我们在预测中要用到的特征。
我们用假人将教育从分类转变为数字。
作者图片
让我们定义特征;
作者图片
现在是时候定义我们的标签了;
作者图片
作者图片
这些是我将在这个数据集中使用的分类技术。
- k 最近邻(KNN)
- 决策图表
- 支持向量机
- 逻辑回归
现在是时候分割训练和测试数据了,通常是 0.2-0.8 份。
作者图片
作者图片
作者图片
现在是时候调查测试和训练数据的准确性了。
作者图片
定义最佳 K;
作者图片
如我们所见,结果 7 是我们数据的最佳 K。
作者图片
作者图片
作者图片-适合模型
作者图片
现在让我们尝试使用决策树算法。
作者图片
作者图片
确定最佳深度;
作者图片
根据准确度分数,5 是最佳深度分数。
作者图片
让我们进行我们的算法,然后评估;
作者图片
现在让我们用 SVM。
作者图片
找出 SVM 最好的模特;
作者图片
作者图片
作者图片
作者图片
现在是使用逻辑回归的时候了。
让我们锁定和加载;
作者图片
列车-测试分离;
作者图片
找到最佳解算器;
作者图片
作者图片
作者图片
作者图片
作者图片
数据处理;
作者图片
作者图片
作者图片
作者图片
作者图片
作者图片
作者图片
作者图片
作者图片
作者图片
感谢 IBM 的机器学习教程,它让我到达了那里。