GitHub - Pstva/ml-project: Multilingual text classification

ML Project: Amazon reviews sentiment analysis

Multilingual text classification with XLM-Roberta

Репозиторий с проектом для курса по Инженерным практикам ВШЭ.

Код был написан в рамках соревнования в решении задачи анализа тональности отзывов в качестве домашнего задания на курсе по NLP от ФКН ВШЭ в 2020.

https://www.kaggle.com/c/amazon-reviews-sentiment-2020-hse/leaderboard

Описание соревнования

Задача: анализ тональности отзывов.

Данные предоставлены компанией Amazon и содержат текст отзыва и соответствующую оценку (0/1/2, где 0 - самая низкая оценка, 2 - самая высокая).

В обучающей выборке тексты на английском языке, в тестовой - на французском, задача - обучить модель, которая без дообучения сможет работать с новым для нее языком (задача переноса обучения).

Решение основано на семинаре курса по мультиязычным моделям:

https://colab.research.google.com/github/nlptown/nlp-notebooks/blob/master/Multilingual%20text%20classification%20with%20BERT.ipynb

Мое решение:

Использована предобученная мультиязычная модель "xlm-roberta-base", дообучена на 90% тренировочных данных на английском языке на 3 эпохах.

accuracy на Kaggle: 0.81116.

Структура репозитория

data - тренировочные и тестовые данные
notebooks - ноутбук с аналогичным кодом, как в src/
reports - отчеты
src - скрипт с построением модели и предсказанием для тестовых данных
src/predictions - предсказания модели

Анализ и исправление кода

Отчет можно посмотреть здесь: Отчет по ошибкам.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
data		data
notebooks		notebooks
reports		reports
src		src
.env		.env
README.md		README.md
requirements		requirements

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ML Project: Amazon reviews sentiment analysis

Multilingual text classification with XLM-Roberta

Описание соревнования

Мое решение:

Структура репозитория

Анализ и исправление кода

About

Releases

Packages

Contributors 2

Languages

Pstva/ml-project

Folders and files

Latest commit

History

Repository files navigation

ML Project: Amazon reviews sentiment analysis

Multilingual text classification with XLM-Roberta

Описание соревнования

Мое решение:

Структура репозитория

Анализ и исправление кода

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages