Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання

dc.contributor.authorГлибовець, Миколаuk_UA
dc.contributor.authorЗадохін, Дмитроuk_UA
dc.contributor.authorДехтяр, Богдан-Яремаuk_UA
dc.contributor.authorПєчкурова, Оленаuk_UA
dc.date.accessioned2025-05-21T06:51:19Z
dc.date.available2025-05-21T06:51:19Z
dc.date.issued2024
dc.descriptionThe article analyzes the capabilities of large language models in solving NLP tasks. It describes the features of the Transformer architecture, which serves as the foundation for modern natural language processing models. The individual components of the architecture, their roles, and their significance for working with human language are discussed. A comparative analysis of the Transformer and other existing models in the context of machine translation task is provided. Factors that have enabled the development of models with billions of parameters—known as large language models—are analyzed. The Llama model family from Meta is reviewed as an example of such models. Special attention is given to smaller-scale models, which can be powerful yet accessible tools for natural language processing. Currently, deep machine learning and convolutional neural networks (CNN) hold an important place in the field of natural language processing (NLP). Therefore, the article evaluates the effectiveness of these algorithms, models, and methods for solving key tasks, using the named entity recognition (NER) task as an example. Deep learning methods have revolutionized NER, providing a significantly better understanding of context, capturing dependencies over long distances, and enabling the effective use of large datasets. A classification of Transformer-based models that currently yield the best results is provided. Currently, many models have been developed based on the Transformer architecture. We describe the results of comparing two of the largest BERT models (which have achieved strong results across a wide range of NLP tasks, including question answering, text classification, natural language interference, and context prediction) with GPT-3 (which has demonstrated impressive successes in language modeling, text generation, and question answering). These models are pre-trained on large-scale textual datasets to learn fundamental linguistic representations. Both models leverage fine-tuning to enhance their performance.en_US
dc.description.abstractУ статті представлено аналіз можливостей великих мовних моделей для вирішення задач NLP. Описано особливості архітектури Transformer, що є основою для сучасних моделей з оброблення природної мови. Розглянуто окремі компоненти архітектури, їхню роль і важливість для роботи з людською мовою. Проведено порівняльний аналіз Transformer та інших наявних моделей для завдання машинного перекладу. Проаналізовано фактори, що дали змогу створювати моделі з мільярдами параметрів — великі мовні моделі. Розглянуто сім’ю моделей Llama від Meta як приклад такої моделі. Особливу увагу було приділено моделям порівняно невеликого розміру, що можуть бути потужним і водночас доступним інструментом для оброблення природної мови. Наразі глибинне машинне навчання і згорткові нейронні мережі (CNN) посідають важливе місце у сфері оброблення природної мови (NLP). Тому в статті оцінено ефективність використання його алгоритмів, моделей і методів для вирішення основних задач на прикладі задачі розпізнавання іменованих сутностей (NER). Наведено методи глибинного навчання, які зробили революцію в NER, надавши можливість набагато краще розуміти контекст, фіксувати залежності на великих відстанях і ефективно використовувати великі обсяги даних. Проведено класифікацію моделей на основі трансформерів, що дають найкращі результати на цей момент. Зараз існує багато моделей, розроблених на основі трансформера. Описано результати порівняння двох із найпоширеніших моделей — BERT (гарні результати у широкому спектрі завдань NLP, зокрема відповіді на запитання, класифікація тексту, висновок природною мовою, передбачення лівого і правого контексту слова) і GPT-3 (великі успіхи, як-от мовне моделювання, генерування тексту й відповіді на запитання). Ці моделі проходять попереднє навчання на великих текстових наборах даних, щоб вивчити фундаментальні мовні уявлення. Обидві моделі активно використовують потенціал тонкого налаштування.uk_UA
dc.identifier.citationОброблення природної мови за допомоги великих мовних моделей і методів машинного навчання / Глибовець М. М., Задохін Д. В., Дехтяр Б.-Я., Пєчкурова О. М. // Наукові записки НаУКМА. Комп'ютерні науки. - 2024. - Т. 7. - С. 102-111. - https://doi.org/10.18523/2617-3808.2024.7.102-111uk_UA
dc.identifier.issn2617-3808
dc.identifier.issn2617-7323
dc.identifier.urihttps://doi.org/10.18523/2617-3808.2024.7.102-111
dc.identifier.urihttps://ekmair.ukma.edu.ua/handle/123456789/34776
dc.language.isoukuk_UA
dc.relation.sourceНаукові записки НаУКМА. Комп'ютерні науки. Том 7uk_UA
dc.statusfirst publisheduk_UA
dc.subjectNLPen_US
dc.subjectNERen_US
dc.subjectCNNen_US
dc.subjectмашинне навчанняuk_UA
dc.subjectархітектура нейронних мережuk_UA
dc.subjectархітектура Transformeruk_UA
dc.subjectмашинний перекладuk_UA
dc.subjectвеликі мовні моделі (Llama, BERT, GPT)uk_UA
dc.subjectстаттяuk_UA
dc.subjectmachine learningen_US
dc.subjectneural network architectureen_US
dc.subjectTransformer architectureen_US
dc.subjectmachine translationen_US
dc.subjectlarge language models (Llama, BERT, GPT)en_US
dc.titleОброблення природної мови за допомоги великих мовних моделей і методів машинного навчанняuk_UA
dc.title.alternativeNatural Language Processing Using Large Language Models and Machine Learning Methodsen_US
dc.typeArticleuk_UA
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Obroblennia_pryrodnoi_movy_za_dopomohy_velykykh_movnykh_modelei_i_metodiv_mashynnoho_navchannia_Hlybovets.pdf
Size:
1.46 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: