В данном репозитории представлено решение задачи на хакатоне Leaders of Digital 2023. Задача №5 "Поиск одинаковых товаров на маркетплейсе". Реализована сиамская архитектура нейросети. Предтренированный на русских текстах BERT использовался для получения эмбеддингов. Классификация выполнялясь полносвязной нейронной сетью. Также были выполнены: генерация признаков из имеющихся данных. Обучение RandomForest, а также Randomized Search для CatBoost, что позволило повысить целевую метрику при решении задачи.
- Создайте virtual environment с python 3.11
- Установите зависимости: pip install -r requirements.txt
- Для выполнения ноутбуков вам понадобится датасет