Дослідження методів розпізнавання українських текстів, згенерованих великими мовними моделями (Large Language Models)

Кундік, КирилоГоголь, Антон2025-09-052025-09-052025https://ekmair.ukma.edu.ua/handle/123456789/36454Дипломна робота присвячена дослідженню та адаптації методів детекції українськомовних текстів, згенерованих великими мовними моделями. Мета роботи – розробка ефективного алгоритму для розпізнавання походження українського тексту: написаного людиною чи згенерованого штучним інтелектом. У дослідженні проаналізовано сучасні підходи до виявлення згенерованого мовними моделями тексту та здійснено їх адаптацію для української мови. Методи детекції систематизовано на дві категорії: ті, що не потребують попереднього навчання (black-box та white-box варіанти алгоритму DNA-GPT), та ті, що базуються на машинному навчанні. Для експериментальної перевірки сформовано збалансований набір даних українських текстів, що включає як оригінальні людські тексти, так і синтезовані за допомогою мовних моделей. На цьому наборі даних проведено оцінку ефективності реалізованих алгоритмів, включаючи донавчання класифікатора на базі моделі BERT. Валідацію результатів здійснено на текстах, згенерованих двома провідними мовними моделями: GPT-4o-mini та Llama 3:70B.ukвеликі мовні моделімашинне навчанняDNA-GPTLlamaGPT-4o-miniBERTдетекція AI-текстубакалаврська роботаДослідження методів розпізнавання українських текстів, згенерованих великими мовними моделями (Large Language Models)Exploring Methods for Detecting Ukrainian Texts Generated by Large Language ModelsOther