Пошук та визначення плагіату в текстах українською мовою

Величко, Ростислав

Пошук та визначення плагіату в текстах українською мовою

Files

Velychko_Mahisterska_robota.pdf (632.24 KB)

Velychko_Mahisterska_robota 2.pdf (62.72 KB)

Date

2023

Authors

Величко, Ростислав

Abstract

Метою роботи є розробка програми на мові Python, яка визначатиме рівень плагіату в українських текстах за допомогою семантичного моделювання (LDA та LSA). Завдання роботи: 1. Провести аналіз літератури з питань тематичного моделювання, косинусної подібності та Евклідової відстані. 2. Розробити програму на мові Python, яка буде здійснювати підготовку тексту (очищення від зайвих символів, лематизація, токенізація) та застосовувати тематичні моделі LDA та LSA. 3. Реалізувати обчислення косинусної подібності та Евклідової відстані між текстами. 4. Розробити алгоритм визначення рівня плагіату, який буде враховувати результати застосування тематичних моделей та метрик подібності. 5. Провести експериментальне дослідження розробленої програми на корпусі українських текстів для оцінки її ефективності та точності. 6. Зробити висновки та рекомендації щодо можливих покращень програми та перспектив подальших досліджень в даній області. Об'єктом дослідження є українські тексти різної тематики та жанрів, які мають потенційний ризик плагіату. Методи дослідження — аналіз наукової літератури.

Keywords

підходи до виявлення плагіату, латентне розміщення Дирихле (LDA), "торба слів" ( bag-of-words), TF-IDF ( Term frequency-inverse document frequency), сингулярне розкладання (SVD), магістерська робота

URI

https://ekmair.ukma.edu.ua/handle/123456789/28333

Collections

F1 Прикладна математика

Full item page