трек: Хемоинформатика
Александр telegram
Михаил telegram
Павел telegram
Для определения того, является ли то или иное химическое соединение лекарством, необходимо проводить длительные биологические эксперименты. Это процедуру можно значительно ускорить, если научиться предсказывать необходимые параметры соединения на основании его структуры. Вам даны данные о химических соединениях и их структурные формулы, предскажите параметры CC50 и IC50 или SI (индекс селективности).
Представлено два набора данных - ~1400 соединений с рассчитанным CC50/IC50/SI по отношению к одному и тому же штамму H1N1 (Грипп) и ~35000 соединений с рассчитанным IC50 по отношению к разным штаммам H1N1. В первую очередь работа должна осуществляться с предоставленными данными.
Результаты обучения моделей на 1D дескрипторах
Модель | Тип обработки | RMSE/Valid | RMSE/Test |
---|---|---|---|
Catboost | Без стандартизации | 21.0 | 21.88 |
С стандартизацией | 21.0 | 22.07 | |
LightGBM | Без стандартизации | 20.0 | 21.44 |
С стандартизацией | 20.0 | 21.37 | |
XGBoost | Без стандартизации | 21.0 | 21.812 |
С стандартизацией | 21.0 | 21.809 | |
RandomForest | Без стандартизации | 20.62 | 21.32 |
С стандартизацией | 20.58 | 21.49 |
Результаты обучения Catboost на Fingerprint 2D дескрипторах
Модель | Тип обработки | RMSE/Valid | RMSE/Test |
---|---|---|---|
Catboost | Без стандартизации | 21.5 | 23.41 |