Дослідження методів розпізнавання українських текстів, згенерованих великими мовними моделями (Large Language Models)

Loading...
Thumbnail Image
Date
2025
Authors
Гоголь, Антон
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Дипломна робота присвячена дослідженню та адаптації методів детекції українськомовних текстів, згенерованих великими мовними моделями. Мета роботи – розробка ефективного алгоритму для розпізнавання походження українського тексту: написаного людиною чи згенерованого штучним інтелектом. У дослідженні проаналізовано сучасні підходи до виявлення згенерованого мовними моделями тексту та здійснено їх адаптацію для української мови. Методи детекції систематизовано на дві категорії: ті, що не потребують попереднього навчання (black-box та white-box варіанти алгоритму DNA-GPT), та ті, що базуються на машинному навчанні. Для експериментальної перевірки сформовано збалансований набір даних українських текстів, що включає як оригінальні людські тексти, так і синтезовані за допомогою мовних моделей. На цьому наборі даних проведено оцінку ефективності реалізованих алгоритмів, включаючи донавчання класифікатора на базі моделі BERT. Валідацію результатів здійснено на текстах, згенерованих двома провідними мовними моделями: GPT-4o-mini та Llama 3:70B.
Description
Keywords
великі мовні моделі, машинне навчання, DNA-GPT, Llama, GPT-4o-mini, BERT, детекція AI-тексту, бакалаврська робота
Citation