Пошук та визначення плагіату в текстах українською мовою

Глибовець, АндрійВеличко, Ростислав2024-03-212024-03-212023https://ekmair.ukma.edu.ua/handle/123456789/28333Метою роботи є розробка програми на мові Python, яка визначатиме рівень плагіату в українських текстах за допомогою семантичного моделювання (LDA та LSA). Завдання роботи: 1. Провести аналіз літератури з питань тематичного моделювання, косинусної подібності та Евклідової відстані. 2. Розробити програму на мові Python, яка буде здійснювати підготовку тексту (очищення від зайвих символів, лематизація, токенізація) та застосовувати тематичні моделі LDA та LSA. 3. Реалізувати обчислення косинусної подібності та Евклідової відстані між текстами. 4. Розробити алгоритм визначення рівня плагіату, який буде враховувати результати застосування тематичних моделей та метрик подібності. 5. Провести експериментальне дослідження розробленої програми на корпусі українських текстів для оцінки її ефективності та точності. 6. Зробити висновки та рекомендації щодо можливих покращень програми та перспектив подальших досліджень в даній області. Об'єктом дослідження є українські тексти різної тематики та жанрів, які мають потенційний ризик плагіату. Методи дослідження — аналіз наукової літератури.ukпідходи до виявлення плагіатулатентне розміщення Дирихле (LDA)"торба слів" ( bag-of-words)TF-IDF ( Term frequency-inverse document frequency)сингулярне розкладання (SVD)магістерська роботаПошук та визначення плагіату в текстах українською мовоюOther