Пошук та визначення плагіату в текстах українською мовою

Loading...
Thumbnail Image
Date
2023
Authors
Величко, Ростислав
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Метою роботи є розробка програми на мові Python, яка визначатиме рівень плагіату в українських текстах за допомогою семантичного моделювання (LDA та LSA). Завдання роботи: 1. Провести аналіз літератури з питань тематичного моделювання, косинусної подібності та Евклідової відстані. 2. Розробити програму на мові Python, яка буде здійснювати підготовку тексту (очищення від зайвих символів, лематизація, токенізація) та застосовувати тематичні моделі LDA та LSA. 3. Реалізувати обчислення косинусної подібності та Евклідової відстані між текстами. 4. Розробити алгоритм визначення рівня плагіату, який буде враховувати результати застосування тематичних моделей та метрик подібності. 5. Провести експериментальне дослідження розробленої програми на корпусі українських текстів для оцінки її ефективності та точності. 6. Зробити висновки та рекомендації щодо можливих покращень програми та перспектив подальших досліджень в даній області. Об'єктом дослідження є українські тексти різної тематики та жанрів, які мають потенційний ризик плагіату. Методи дослідження — аналіз наукової літератури.
Description
Keywords
підходи до виявлення плагіату, латентне розміщення Дирихле (LDA), "торба слів" ( bag-of-words), TF-IDF ( Term frequency-inverse document frequency), сингулярне розкладання (SVD), магістерська робота
Citation