Аналіз і синтез технологій класифікації текстової інформації

Thumbnail Image
Кузнєцов, Владислав
Крак, Юрій
Ляшко, Володимир
Касянюк, Веда
Journal Title
Journal ISSN
Volume Title
Розглянуто задачу якісного аналізу процесу перетворення текстової інформації на набір ознак і відповідно перетворення цих ознак на набір, зручний для візуального аналізу. Розглянуто структуру типової технології з аналізу текстової інформації та визначено її основні елементи. Детально наведено опис кожного елементу технології аналізу та класифікації текстової інформації із залученням методів класифікації та групування ознак. Проведено експериментальні випробування окремих компонентів цієї технології.
The task of developing effective text information classification systems requires the thoughtful analysis and synthesis of variable components of technology. These components strongly affect the practical efficiency and the requirements to the data. For this purpose, a typical technology was discussed, comparing the regular "learning from features" approach versus the more advanced "deep learning" approach, that studies from data. In order to implement the technology, the first approach was tested, which included the means (methods, algorithms) for analysis of the features of the source text, by applying the dimensionality transformation, and building model solutions that allow the correct classification of data by a set of features. As a result, all the steps of the technology are described, which allowed to determine the way of presenting data in terms of hidden features in data, their presentation in a standard visual form and evaluate the solution, as well as its practical efficiency, based on this set of features. In a depth study, the informational core of the document was studied, using the regression and T-stochastic grouping of features for dimensionality reduction. The separate results contain estimation of practical efficiency of the algorithms in terms of time and relative performance for each step of the proposed technology. This estimation gives a possibility to obtain the best algorithm of intelligent data processing that is useful for a given dataset and application. In order to estimate the best suited algorithm for separation in reduced dimension an experiment was carried out which allowed the selection of the best range of data classification algorithms, in particular boosting methods. As a result of the analysis of the technology, the necessary steps of this technology were discussed and the classification on real text data was conducted, which allowed to identify the most important stages of the technology for text classification.
оброблення текстів, видобуток ознак, візуальна аналітика, алгоритми класифікації, зменшення розмірності ознак, стаття, text processing, feature extraction, visual analytics, classification algorithms, feature dimensionality reduction
Аналіз і синтез технологій класифікації текстової інформації / Кузнєцов В. О., Крак Ю. В., Ляшко В. І., Касянюк В. С. // Наукові записки НаУКМА. Комп'ютерні науки. - 2022. - Т. 5. - С. 49-53. - https://doi.org/10.18523/2617-3808.2022.5.49-53