В этом репозитории коллекция материалов курсов в 7bits|it-lift:
- Основы машинного обучения - это архив заданий Coding Garden по машинному обучению.
- ML на sklearn - архив курса по ML за 2018-2020 года.
- Основы глубокого обучения - задания курса по реализации нейросетей с нуля на numpy.
- Архитектуры нейросетей - задания курса по архитектурам сетей на Pytorch.
В заданиях вы будете реализовывать алгоритмы вручную на numpy. Необходимая теория будет распиана в jupyter ноутбуках.
Если вы студент из Омска, то можете получить консультации по курсу. Для этого зарегистрируйтесь на Coding Garden для ML.
- kNN
- Линейная регрессия
- kMeans
- Наивный Байес и тексты
- Деревья решений
- Ансамбли моделей: Градиентный бустинг, Беггинг
В заданиях используется sklearn, pandas, numpy, matplotlib, seaborn, keras.
Теория записана в виде курса на stepik.
- Таблицы с данными. Признаки и их типы. Законы распределения признаков и зависимость между признаками (тут же: коэффициент корреляции).
- Проблема пропущенных данных. Методы восстановления. Восстановление с помощью метрик и коэфф корреляции. Приложение всего этого в рекомендательных системах.
- Выбросы. Алгоритмы обнаружения выбросов. Критерии Пирса и Шавене (Chauvenet). Прочие методы обнаружения выбросов и обнаружение новизны в новой выборке (по сравнению со старой).
- Кластеризация. Алгоритмы (метрические и k-means). Обнаружение выбросов с помощью кластеризации.
- Задача предсказания значения признака. Тренировочная и тестовая выборка. Общий план работы работы алгоритма предсказания (разбиение на тестовую и тренировочную выборку). Кросс-валидация. Переобучение.
- Задача регрессии. Оценка качества МАЕ, МАРЕ и пр. Методы регрессии: линейная модель, метрические (типа ближайшего соседа).
- Задача классификации. Общая теория задач бинарной классификации. Таблица ошибок. Ошибки первого и второго рода. Показатели качества. Самый простой классификатор.
- Методы классификации (изучаем по порядку): метрические, Байес, деревья, случайный лес, SVM. Для каждого алгоритма разбирается пример его работы.
- Предсказание вероятности принадлежности классам. Когда такой подход оправдан. Показатели качества для таких алгоритмов (ROC, AUC)
- Логистическая регрессия (она как раз и предсказывает вероятность принадлежности классам).
- Анализ множества признаков. Информативность признака. Синтез новых признаков. Методы преобразования признаков. Метод главных компонент и другие методы, связанные с разложение матрицы признаков.
- Изменение числа объектов (при несбалансированной выборке). Синтетические образы, расщепление образа на несколько других, oversampling and undersampling.
В заданиях вы будете писать свою библиотеку автодифференцирования и базовый набор слоев для нейросети.
Теория по курсу Машинного обучения в ОмГУ на ИМИТ. (скоро будет перезаписана в хорошем качестве)
Появится в сентябре 2021
В заданиях вы будете писать архитектуры нейросетей на pytorch и тренировать сетки решать задачи.
Появится в декабре 2021