Из Банка Х стали уходить клиенты. Наблюдается ежемесячный отток, который становится заметным. По мнению маркетологов сохранение текущих клиентов дешевле, чем привлечение новых.
Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Анализируются исторические данные о поведении клиентов и расторжении договоров с банком.
Метрика, использованная в проекте F1- score (F1-мера). F1- score (F1-мера) - агрегируюшая метрика, позволяющая параллельно контролировать полноту и точность и являющаяся средним гармоническим полноты и точности. Полнота и точность оченивают качество прогноза положительного класса с разных позиций. Recall описывает, насколько хорошо модель распознает классы, при этом Precision выявляет ситуацию, когда положительные метрики присваиваются излишне часто. Когда полнота или точность близки к нулю, то к 0 приближается и само среднее гармоническое. Пороговое значение метрики F1-score - 0.59.
Источник данных: https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling
Данные находятся в файле Churn.csv (англ. «отток клиентов»).
Признаки
- RowNumber — индекс строки в данных
- CustomerId — уникальный идентификатор клиента
- Surname — фамилия
- CreditScore — кредитный рейтинг
- Geography — страна проживания
- Gender — пол
- Age — возраст
- Tenure — сколько лет человек является клиентом банка
- Balance — баланс на счёте
- NumOfProducts — количество продуктов банка, используемых клиентом
- HasCrCard — наличие кредитной карты
- IsActiveMember — активность клиента
- EstimatedSalary — предполагаемая зарплата
Целевой признак
- Exited — факт ухода клиента
В рамках проекта исследованы четыре типа моделей для задачи классификации, позволяющие на основании исторических данных о поведении клиентов и расторжении договоров с банком спрогнозировать уйдёт клиент из банка в ближайшее время или нет. Исследованные модели: решающее дерево, случайный лес, логистическая регрессия и градиентный бустинг. Наилучшая модель по результатам исследования - случайный лес со следующими гиперпараметрами: 'max_depth': 9, 'min_samples_leaf': 2, 'min_samples_split': 6, 'n_estimators': 31. Техника, которая была использована для устранения дисбаланса классов, взвешивание классов. На тестовой выборке для данной модели получено значение F1-score- 0.636 при пороговом значении для проекта - 0.59, что превышает пороговое значение на 0.046; AUC-ROC для данной модели- 0.868, что значительно превышает данный показатель для случайной модели - 0.5. Проведен тест модели на адекватность. Используя данную модель Банк Х может прогнозировать уход клиентов банка.