Чоловський, СергійЗдирко, Владислав2026-02-062026-02-062025Чоловський С. О. Генеративний фреймворк для побудови візуально-текстових датасетів на основі онтологій / Чоловський С. О., Здирко В. В. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 80-81.https://ekmair.ukma.edu.ua/handle/123456789/38281This work presents a general framework for generating VQA (Visual Question Answering) datasets across arbitrary knowledge domains. Logically complex questions are derived from OWL-ready formatted ontologies, and correct answers are obtained using SPARQL queries. The diversity of generated questions is enhanced through paraphrasing with a large language model. Relevant scenes are generated using Stable Diffusion with CLIP-score–based post-filtering. We believe this hybrid approach enables efficient creation of high-quality, semantically rich datasets.Одним з напрямків комп’ютерного зору є візуально-лінгвістична обробка зображень, він включає в себе, зокрема, такі задачі як опис(captioning), відповіді на питання за зображенням(далі VQA - visual question answering), та загальне розуміння(visual common sense reasoning). Задача VQA полягає в тому, щоб на основі зображення надати коротку відповідь на розгорнуте питання (в common sense задачах відповідь може бути довільною).ukкомп’ютерний зірVQA-датасетионтологічні моделігенеративні нейронні мережіматеріали конференціїГенеративний фреймворк для побудови візуально-текстових датасетів на основі онтологійConference materials