Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання

Глибовець, Микола; Задохін, Дмитро; Дехтяр, Богдан-Ярема; Пєчкурова, Олена

Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання

dc.contributor.author	Глибовець, Микола	uk_UA
dc.contributor.author	Задохін, Дмитро	uk_UA
dc.contributor.author	Дехтяр, Богдан-Ярема	uk_UA
dc.contributor.author	Пєчкурова, Олена	uk_UA
dc.date.accessioned	2025-05-21T06:51:19Z
dc.date.available	2025-05-21T06:51:19Z
dc.date.issued	2024
dc.description	The article analyzes the capabilities of large language models in solving NLP tasks. It describes the features of the Transformer architecture, which serves as the foundation for modern natural language processing models. The individual components of the architecture, their roles, and their significance for working with human language are discussed. A comparative analysis of the Transformer and other existing models in the context of machine translation task is provided. Factors that have enabled the development of models with billions of parameters—known as large language models—are analyzed. The Llama model family from Meta is reviewed as an example of such models. Special attention is given to smaller-scale models, which can be powerful yet accessible tools for natural language processing. Currently, deep machine learning and convolutional neural networks (CNN) hold an important place in the field of natural language processing (NLP). Therefore, the article evaluates the effectiveness of these algorithms, models, and methods for solving key tasks, using the named entity recognition (NER) task as an example. Deep learning methods have revolutionized NER, providing a significantly better understanding of context, capturing dependencies over long distances, and enabling the effective use of large datasets. A classification of Transformer-based models that currently yield the best results is provided. Currently, many models have been developed based on the Transformer architecture. We describe the results of comparing two of the largest BERT models (which have achieved strong results across a wide range of NLP tasks, including question answering, text classification, natural language interference, and context prediction) with GPT-3 (which has demonstrated impressive successes in language modeling, text generation, and question answering). These models are pre-trained on large-scale textual datasets to learn fundamental linguistic representations. Both models leverage fine-tuning to enhance their performance.	en_US
dc.description.abstract	У статті представлено аналіз можливостей великих мовних моделей для вирішення задач NLP. Описано особливості архітектури Transformer, що є основою для сучасних моделей з оброблення природної мови. Розглянуто окремі компоненти архітектури, їхню роль і важливість для роботи з людською мовою. Проведено порівняльний аналіз Transformer та інших наявних моделей для завдання машинного перекладу. Проаналізовано фактори, що дали змогу створювати моделі з мільярдами параметрів — великі мовні моделі. Розглянуто сім’ю моделей Llama від Meta як приклад такої моделі. Особливу увагу було приділено моделям порівняно невеликого розміру, що можуть бути потужним і водночас доступним інструментом для оброблення природної мови. Наразі глибинне машинне навчання і згорткові нейронні мережі (CNN) посідають важливе місце у сфері оброблення природної мови (NLP). Тому в статті оцінено ефективність використання його алгоритмів, моделей і методів для вирішення основних задач на прикладі задачі розпізнавання іменованих сутностей (NER). Наведено методи глибинного навчання, які зробили революцію в NER, надавши можливість набагато краще розуміти контекст, фіксувати залежності на великих відстанях і ефективно використовувати великі обсяги даних. Проведено класифікацію моделей на основі трансформерів, що дають найкращі результати на цей момент. Зараз існує багато моделей, розроблених на основі трансформера. Описано результати порівняння двох із найпоширеніших моделей — BERT (гарні результати у широкому спектрі завдань NLP, зокрема відповіді на запитання, класифікація тексту, висновок природною мовою, передбачення лівого і правого контексту слова) і GPT-3 (великі успіхи, як-от мовне моделювання, генерування тексту й відповіді на запитання). Ці моделі проходять попереднє навчання на великих текстових наборах даних, щоб вивчити фундаментальні мовні уявлення. Обидві моделі активно використовують потенціал тонкого налаштування.	uk_UA
dc.identifier.citation	Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання / Глибовець М. М., Задохін Д. В., Дехтяр Б.-Я., Пєчкурова О. М. // Наукові записки НаУКМА. Комп'ютерні науки. - 2024. - Т. 7. - С. 102-111. - https://doi.org/10.18523/2617-3808.2024.7.102-111	uk_UA
dc.identifier.issn	2617-3808
dc.identifier.issn	2617-7323
dc.identifier.uri	https://doi.org/10.18523/2617-3808.2024.7.102-111
dc.identifier.uri	https://ekmair.ukma.edu.ua/handle/123456789/34776
dc.language.iso	uk	uk_UA
dc.relation.source	Наукові записки НаУКМА. Комп'ютерні науки. Том 7	uk_UA
dc.status	first published	uk_UA
dc.subject	NLP	en_US
dc.subject	NER	en_US
dc.subject	CNN	en_US
dc.subject	машинне навчання	uk_UA
dc.subject	архітектура нейронних мереж	uk_UA
dc.subject	архітектура Transformer	uk_UA
dc.subject	машинний переклад	uk_UA
dc.subject	великі мовні моделі (Llama, BERT, GPT)	uk_UA
dc.subject	стаття	uk_UA
dc.subject	machine learning	en_US
dc.subject	neural network architecture	en_US
dc.subject	Transformer architecture	en_US
dc.subject	machine translation	en_US
dc.subject	large language models (Llama, BERT, GPT)	en_US
dc.title	Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання	uk_UA
dc.title.alternative	Natural Language Processing Using Large Language Models and Machine Learning Methods	en_US
dc.type	Article	uk_UA

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Obroblennia_pryrodnoi_movy_za_dopomohy_velykykh_movnykh_modelei_i_metodiv_mashynnoho_navchannia_Hlybovets.pdf
Size:: 1.46 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Том 7
Кафедра інформатики
Факультет інформатики