Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання
dc.contributor.author | Глибовець, Микола | uk_UA |
dc.contributor.author | Задохін, Дмитро | uk_UA |
dc.contributor.author | Дехтяр, Богдан-Ярема | uk_UA |
dc.contributor.author | Пєчкурова, Олена | uk_UA |
dc.date.accessioned | 2025-05-21T06:51:19Z | |
dc.date.available | 2025-05-21T06:51:19Z | |
dc.date.issued | 2024 | |
dc.description | The article analyzes the capabilities of large language models in solving NLP tasks. It describes the features of the Transformer architecture, which serves as the foundation for modern natural language processing models. The individual components of the architecture, their roles, and their significance for working with human language are discussed. A comparative analysis of the Transformer and other existing models in the context of machine translation task is provided. Factors that have enabled the development of models with billions of parameters—known as large language models—are analyzed. The Llama model family from Meta is reviewed as an example of such models. Special attention is given to smaller-scale models, which can be powerful yet accessible tools for natural language processing. Currently, deep machine learning and convolutional neural networks (CNN) hold an important place in the field of natural language processing (NLP). Therefore, the article evaluates the effectiveness of these algorithms, models, and methods for solving key tasks, using the named entity recognition (NER) task as an example. Deep learning methods have revolutionized NER, providing a significantly better understanding of context, capturing dependencies over long distances, and enabling the effective use of large datasets. A classification of Transformer-based models that currently yield the best results is provided. Currently, many models have been developed based on the Transformer architecture. We describe the results of comparing two of the largest BERT models (which have achieved strong results across a wide range of NLP tasks, including question answering, text classification, natural language interference, and context prediction) with GPT-3 (which has demonstrated impressive successes in language modeling, text generation, and question answering). These models are pre-trained on large-scale textual datasets to learn fundamental linguistic representations. Both models leverage fine-tuning to enhance their performance. | en_US |
dc.description.abstract | У статті представлено аналіз можливостей великих мовних моделей для вирішення задач NLP. Описано особливості архітектури Transformer, що є основою для сучасних моделей з оброблення природної мови. Розглянуто окремі компоненти архітектури, їхню роль і важливість для роботи з людською мовою. Проведено порівняльний аналіз Transformer та інших наявних моделей для завдання машинного перекладу. Проаналізовано фактори, що дали змогу створювати моделі з мільярдами параметрів — великі мовні моделі. Розглянуто сім’ю моделей Llama від Meta як приклад такої моделі. Особливу увагу було приділено моделям порівняно невеликого розміру, що можуть бути потужним і водночас доступним інструментом для оброблення природної мови. Наразі глибинне машинне навчання і згорткові нейронні мережі (CNN) посідають важливе місце у сфері оброблення природної мови (NLP). Тому в статті оцінено ефективність використання його алгоритмів, моделей і методів для вирішення основних задач на прикладі задачі розпізнавання іменованих сутностей (NER). Наведено методи глибинного навчання, які зробили революцію в NER, надавши можливість набагато краще розуміти контекст, фіксувати залежності на великих відстанях і ефективно використовувати великі обсяги даних. Проведено класифікацію моделей на основі трансформерів, що дають найкращі результати на цей момент. Зараз існує багато моделей, розроблених на основі трансформера. Описано результати порівняння двох із найпоширеніших моделей — BERT (гарні результати у широкому спектрі завдань NLP, зокрема відповіді на запитання, класифікація тексту, висновок природною мовою, передбачення лівого і правого контексту слова) і GPT-3 (великі успіхи, як-от мовне моделювання, генерування тексту й відповіді на запитання). Ці моделі проходять попереднє навчання на великих текстових наборах даних, щоб вивчити фундаментальні мовні уявлення. Обидві моделі активно використовують потенціал тонкого налаштування. | uk_UA |
dc.identifier.citation | Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання / Глибовець М. М., Задохін Д. В., Дехтяр Б.-Я., Пєчкурова О. М. // Наукові записки НаУКМА. Комп'ютерні науки. - 2024. - Т. 7. - С. 102-111. - https://doi.org/10.18523/2617-3808.2024.7.102-111 | uk_UA |
dc.identifier.issn | 2617-3808 | |
dc.identifier.issn | 2617-7323 | |
dc.identifier.uri | https://doi.org/10.18523/2617-3808.2024.7.102-111 | |
dc.identifier.uri | https://ekmair.ukma.edu.ua/handle/123456789/34776 | |
dc.language.iso | uk | uk_UA |
dc.relation.source | Наукові записки НаУКМА. Комп'ютерні науки. Том 7 | uk_UA |
dc.status | first published | uk_UA |
dc.subject | NLP | en_US |
dc.subject | NER | en_US |
dc.subject | CNN | en_US |
dc.subject | машинне навчання | uk_UA |
dc.subject | архітектура нейронних мереж | uk_UA |
dc.subject | архітектура Transformer | uk_UA |
dc.subject | машинний переклад | uk_UA |
dc.subject | великі мовні моделі (Llama, BERT, GPT) | uk_UA |
dc.subject | стаття | uk_UA |
dc.subject | machine learning | en_US |
dc.subject | neural network architecture | en_US |
dc.subject | Transformer architecture | en_US |
dc.subject | machine translation | en_US |
dc.subject | large language models (Llama, BERT, GPT) | en_US |
dc.title | Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання | uk_UA |
dc.title.alternative | Natural Language Processing Using Large Language Models and Machine Learning Methods | en_US |
dc.type | Article | uk_UA |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Obroblennia_pryrodnoi_movy_za_dopomohy_velykykh_movnykh_modelei_i_metodiv_mashynnoho_navchannia_Hlybovets.pdf
- Size:
- 1.46 MB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: