Skip to content

My Bachelor Thesis on Detection of machine-generated fragments in the documents

License

Notifications You must be signed in to change notification settings

intsystems/Voznyuk-BS-Thesis

Repository files navigation

Детекция машинно-сгенерированных фрагментов на базе анализа смены стиля текста

Тип научной работы: Бакалаврский диплом

Автор: Вознюк Анастасия

Научный руководитель: к.ф.-м.н. Грабовой Андрей Валерьевич

Постановка задачи

Предложить модель для определения границы между частью текста, написанной человеком, и продолжением этой части, сгенерированной языковой моделью. Данная граница может быть в любой части текста, но она проходит по словам.

Дополнительно изучались возможности решать задачу для гипотезы, когда авторы меняются по параграфам.

Предлагается использовать трансформерные архитектуры в качестве решения, так как на данный момент именно они показывают наилучшие результаты

Проведение полного эксперимента

Скрипт ./runs.sh запускает эксперимент для модели DeBERTav3-large

Исходный код

Исходники кода находятся в ./src. Файл main.py содержит основной запуск эксперимента, data_augmentation.py представляет скрипт для аугментации.

Датасет:

На основе Medium.com сгенерированно 10000 документов с помощью модели LLaMA-7b

About

My Bachelor Thesis on Detection of machine-generated fragments in the documents

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published