Програмна система перевірки на плагіат українських текстів

dc.contributor.authorГлибовець, Андрій
dc.contributor.authorБікчентаєв, Микола
dc.date.accessioned2023-03-30T13:34:47Z
dc.date.available2023-03-30T13:34:47Z
dc.date.issued2022
dc.descriptionThe purpose of this work is to describe the methodology of building a software system (application) for plagiarism checking of scientific publications in the Ukrainian language using two machine learning models, Word2Vec and BERT. We consider the detection of external plagiarism in Ukrainian texts. Plagiarism is usually defined as the passing off someone else’s ideas as your own. As the Internet becomes more and more accessible every day, a huge amount of data becomes available to people. Nowadays, it is quite easy to find a suitable study and plagiarize it instead of developing one’s own from scratch. Plagiarism undermines the efforts of the researcher whose work has been plagiarized and gives the plagiarist the opportunity to over-praise himself; such a person can be detrimental when appointed to an important position. Many fields of life are susceptible to plagiarism, including research and education. Plagiarism can also take many forms: from straight up copy-paste to paraphrasing and sentence restructuring. This makes plagiarism a rather complex problem, where methods, such as longest common subsequence or n-grams, based on finding shared words between documents, might not work. Therefore, we might consider applying deep learning to the problem of plagiarism detection. In this article we discussed the concept of plagiarism and listed its types. Two machine learning models have been proposed for plagiarism detection: Word2Vec and BERT. We also provided an overview of both models and described how they could be used in the problem of plagiarism detection. A web application for plagiarism detection in the Ukrainian language has been developed. This application features React, a JavaScript framework, on the frontend and Python on the backend. To store application data, MongoDB is used. This application allows a user to input a text that will be compared with the texts from the application database using cosine similarity or Euclidean distance as metrics. Comparison is performed using word embeddings, calculated by pre-trained BERT or Word2Vec model. A user can choose the model and similarity metrics using the application’s UI. The application can be further improved to not only output similarity metric but also highlight the similar sentences in the texts.en_US
dc.description.abstractМетою цієї роботи є опис методології побудови програмної системи (застосунку) перевірки на плагіат наукових публікацій українською мовою з використанням двох моделей машинного навчання – Word2Vec і BERT. Ми розглядаємо виявлення зовнішнього плагіату в українських текстах, що передбачає порівняння вхідного документа з документами в колекції. Вбудовування слів використовували для порівняння документів, оскільки тексти зі схожим значенням або контекстом створюють подібні вбудовування слів. За допомогою Word2Vec і BERT ми перетворюємо кожен документ на ряд убудовувань слів. Розрахунок міри подібності для цих убудовувань допомагає визначити схожість документів. Інтерфейс програми розроблено з використанням бібліотеки React. Вебзастосунок використовує бібліотеку компонентів Material UI і базу даних MongoDB. Бекенд написано з використанням мов програмування Python і Flask.uk_UA
dc.identifier.citationГлибовець А. М. Програмна система перевірки на плагіат українських текстів / Глибовець А. М., Бікчентаєв М. О. // Наукові записки НаУКМА. Комп'ютерні науки. - 2022. - Т. 5. - С. 16-25. - https://doi.org/10.18523/2617-3808.2022.5.16-25uk_UA
dc.identifier.issn2617-3808
dc.identifier.issn2617-7323
dc.identifier.urihttps://doi.org/10.18523/2617-3808.2022.5.16-25
dc.identifier.urihttps://ekmair.ukma.edu.ua/handle/123456789/24873
dc.language.isouk
dc.relation.sourceНаукові записки НаУКМА. Комп'ютерні наукиuk_UA
dc.statusfirst publisheden_US
dc.subjectпошук плагіатуuk_UA
dc.subjectBERTuk_UA
dc.subjectWord2Vecuk_UA
dc.subjectмашинне навчанняuk_UA
dc.subjectстаттяuk_UA
dc.subjectmachine learningen_US
dc.subjectBERTen_US
dc.subjectWord2Vecen_US
dc.subjectplagiarism detectionen_US
dc.titleПрограмна система перевірки на плагіат українських текстівuk_UA
dc.title.alternativeSoftware system of checking for plagiarism of Ukrainian textsen_US
dc.typeArticleen_US
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Hlybovets_Bikchentaiev_Prohramna_systema_perevirky_na_plahiat_ukrainskykh_tekstiv.pdf
Size:
1.86 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: