Жежерун, ОлександрКолесніков, Антон2026-02-062026-02-062025Жежерун О. П. Автоматичне формування онтології товарів на основі аналізу даних електронної комерції / Жежерун О. П., Колесніков А. О. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 98-100.https://ekmair.ukma.edu.ua/handle/123456789/38272The article presents a system for automatic generation of product ontology based on analysis of heterogeneous data from multiple e-commerce sources. The system architecture and algorithm for concept extraction from natural language texts without manual synonym dictionary creation are described. The system generated an ontology with 486 concepts and 1216 relationships with F1=95.2% extraction accuracy. The system uses a four-layer hybrid architecture with transformer embeddings (gte-small, 384-dimensional) and HNSW indexing (M=16, efSearch=16). Experimental deployment on 700,000 products from 34 sources in four languages showed F1=95.2% concept extraction accuracy at 13 products per second processing speed. Main advantages: no need for large labeled datasets, automatic multilingual processing without translation dictionaries, ability to supplement ontology with new concepts without retraining. The system can be adapted for other domains: medicine, finance, logistics.Після створення концепції Semantic Web онтологія стала синонімом рішення проблем розуміння природної мови комп'ютерами [1]. Проте ручне створення онтологій потребує значних інтелектуальних ресурсів та швидко застаріває. Щоб знайти рішення, з'явився напрям онтологічної інженерії, який вивчає шляхи автоматизації генерування знань з тексту [2,3]. У процесі роботи розглянуто задачу автоматизованої генерації онтології товарів з використанням гетерогенних даних з 34 джерел електронної комерції чотирма мовами. Побудовано систему, яка формує онтологію з 486 концептів без ручного створення словників. Традиційні підходи потребують залучення експертів та ручного створення правил, що не масштабується при роботі з мільйонами товарів [3,4]. Сучасні методи можна поділити на три класи: словникові системи (потребують ручних синонімів), правилові системи (не масштабуються), системи на основі машинного навчання (потребують великих розмічених датасетів) [5].ukонтологічна інженеріябаза знаньонтологія продуктуобробка природної мовитрансформаторні вбудовуваннясемантичне зіставленнявеликі даніматеріали конференціїontology engineeringknowledge baseproduct ontologynatural language processingtransformer embeddingssemantic matchingbig dataАвтоматичне формування онтології товарів на основі аналізу даних електронної комерціїConference materials