Дослідження методів розпізнавання українських текстів, згенерованих великими мовними моделями (Large Language Models)

Гоголь, Антон

Дослідження методів розпізнавання українських текстів, згенерованих великими мовними моделями (Large Language Models)

Files

Hohol_Bakalavrska_robota.pdf (501.66 KB)

Hohol_Bakalavrska_robota_1.pdf (318.88 KB)

Date

2025

Authors

Гоголь, Антон

Abstract

Дипломна робота присвячена дослідженню та адаптації методів детекції українськомовних текстів, згенерованих великими мовними моделями. Мета роботи – розробка ефективного алгоритму для розпізнавання походження українського тексту: написаного людиною чи згенерованого штучним інтелектом. У дослідженні проаналізовано сучасні підходи до виявлення згенерованого мовними моделями тексту та здійснено їх адаптацію для української мови. Методи детекції систематизовано на дві категорії: ті, що не потребують попереднього навчання (black-box та white-box варіанти алгоритму DNA-GPT), та ті, що базуються на машинному навчанні. Для експериментальної перевірки сформовано збалансований набір даних українських текстів, що включає як оригінальні людські тексти, так і синтезовані за допомогою мовних моделей. На цьому наборі даних проведено оцінку ефективності реалізованих алгоритмів, включаючи донавчання класифікатора на базі моделі BERT. Валідацію результатів здійснено на текстах, згенерованих двома провідними мовними моделями: GPT-4o-mini та Llama 3:70B.

Keywords

великі мовні моделі, машинне навчання, DNA-GPT, Llama, GPT-4o-mini, BERT, детекція AI-тексту, бакалаврська робота

URI

https://ekmair.ukma.edu.ua/handle/123456789/36454

Collections

F3 Комп'ютерні науки

Full item page