[RU] Краткое описание проектов:
- В этой домашней работе вы практикуетесь с Hadoop Streaming, а именно - инференс модели на основе sklearn на кластере. При таком подходе модель обучается на (относительно) небольшом семпле, а инференс может осуществляться параллельно на кластере на датасете любого размера. В этом задании требуется не просто обучить модель и сделать предсказания, а написать скрипты, для которых пути к датасетам и сама модель будут являться аргументами. Это позволяет легче выводить модели в прод.
Link: https://docs.google.com/document/d/18KNsBaP2dIpyKQWo8I_6yEzTbdZw4dze4IjUzY-pIEc/edit
- В этой домашке мы работаем с теми же самыми данными, что и в первом домашнем задании, и задача для обучения модели стоит точно такая же. Прочтите описание данных и задачи ниже. Однако мы будем работать с данными используя только Hive. За основу взят датасет и соревнование Criteo Display Advertising challenge
Link: https://docs.google.com/document/d/1HO-w9qGG5LEfjVD0vjVH2qaqdQWbEw-nD--2-3ixTKU/edit
- В этом задании вам предстоит реализовать алгоритм поиска кратчайшего пути в графе, используя алгоритм Breadth-first search. Алгоритм BFS, в отличие от алгоритма Depth-first search, исследует все возможные пути от целевой вершины одновременно.
Link: https://docs.google.com/document/d/10WszM2SAWbn-2yCvefp44G7ZPDFe81RStHlMtVO793Y/edit
- В этом задании вам предстоит предсказать оценку товара по его текстовому обзору (review). Тренировка модели и предсказание должны быть сделаны с использованием Spark ML.
Link: https://docs.google.com/document/d/1Y2DCQ0WxmLFtyu33ddhCQpAxhGmo8tjYhbuQ-sdlhuQ/edit
- В этом задании вы обучаете модель sklearn и сохраняете ее и делаете предсказания с помощью MLFlow. Обратите внимание, в задании используется MLflow версии 1.30. Все выполняется только на логин-ноде. Кластер не используется.
Link: https://docs.google.com/document/d/1ZTLCRAjMDOdAThk5ufwacYjmVsrhBvvBf-frZhBjbWQ/edit
- В этом задании вам предстоит предсказать "настроение" (sentiment) обзора товара (review). В этой работе вы воспользуетесь планировщиком Airflow, чтобы реализовать DAG из нескольких задач:
- предобработка тренировочного датасета на Spark (feature engineering)
- обучение модели sklearn на этих данных
- предобработка тестового датасета на Spark (feature engineering)
- предсказание на тестовом датасете с помощью Spark и pandas_udf, используя предобученную модель sklearn
Link: https://docs.google.com/document/d/18414aiJ5D9nZscTrkU97Zhkb-uxjblMvHb3Brro4Oac/edit