Skip to content

Pstva/ml-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ML Project: Amazon reviews sentiment analysis

Multilingual text classification with XLM-Roberta

Репозиторий с проектом для курса по Инженерным практикам ВШЭ.

Код был написан в рамках соревнования в решении задачи анализа тональности отзывов в качестве домашнего задания на курсе по NLP от ФКН ВШЭ в 2020.

https://www.kaggle.com/c/amazon-reviews-sentiment-2020-hse/leaderboard

Описание соревнования

Задача: анализ тональности отзывов.

Данные предоставлены компанией Amazon и содержат текст отзыва и соответствующую оценку (0/1/2, где 0 - самая низкая оценка, 2 - самая высокая).

В обучающей выборке тексты на английском языке, в тестовой - на французском, задача - обучить модель, которая без дообучения сможет работать с новым для нее языком (задача переноса обучения).

Решение основано на семинаре курса по мультиязычным моделям:

https://colab.research.google.com/github/nlptown/nlp-notebooks/blob/master/Multilingual%20text%20classification%20with%20BERT.ipynb

Мое решение:

Использована предобученная мультиязычная модель "xlm-roberta-base", дообучена на 90% тренировочных данных на английском языке на 3 эпохах.

accuracy на Kaggle: 0.81116.

Структура репозитория

  • data - тренировочные и тестовые данные
  • notebooks - ноутбук с аналогичным кодом, как в src/
  • reports - отчеты
  • src - скрипт с построением модели и предсказанием для тестовых данных
  • src/predictions - предсказания модели

Анализ и исправление кода

Отчет можно посмотреть здесь: Отчет по ошибкам.

About

Multilingual text classification

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published