Разаботать автоматизированную систему, которая распознавала бы вредоносное ПО
1 Провести подготовку данных:
1.1 Уменьшить размерность данных.
1.2 Определить типы данных.
1.3 Заполнить недостающие значения.
2 Выявить закономерности между метриками:
2.1 Провести анализ метрик.
2.2 Найти коэффицциенты корреляции и построить графики зависимостей.
2.3 Определиться, значения каких метрик будут в обучающем наборе.
3 Определиться с метрикой качества модели машинного обучения.
4 Нахождение модели машинного обучения:
4.1 Найти модели, которые возможно могут быть удачными.
4.2 Провести настройку параметров моделей.
4.3 Выбрать наиболее точную
1 Data Preparation: чистка данных, подготовка к изучению
2 Model Validation: построение, оптимизация модели машинного обучения
3 Malware Prediction System: настольное приложение с использованием обученной модели LightGBM
Основные библиотеки и ссылки на официальные сайты
Библиотека | Ссылка |
---|---|
NumPy | https://numpy.org/ |
Matplotlib | https://matplotlib.org/ |
Seaborn | https://seaborn.pydata.org/ |
Pandas | https://pandas.pydata.org/ |
Scikit-Learn | https://scikit-learn.org/stable/index.html |
LightGBM | https://lightgbm.readthedocs.io/en/latest/ |
CatBoost | https://catboost.ai/ |
Данные для обучения взяты с сайта Kaggle, а именно с соревнования от компании Microsoft Malware Prediction.