Структурований оптимізований пошук у неструктурованих даних для задачі аналізу меню

Loading...
Thumbnail Image
Date
2024
Authors
Смиш, Олег
Чижова, Анастасія
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
У статті представлено розроблення пошукової системи для цифрових меню закладів харчування Києва українською мовою. Проєкт реалізовано з використанням сучасних методів обробки природної української мови, зокрема для завдань лематизації, класифікації текстів і фільтрації даних. Основну увагу приділено розробленню алгоритмів, які забезпечують пошук інформації про складники страв, харчові обмеження, алергени та інші ключові характеристики. У рамках дослідження здійснено аналіз цифрових меню київських закладів, що надало змогу сформувати цілісну картину сучасного стану ресторанного бізнесу в Україні. Результати роботи демонструють можливість структурованого та оптимізованого пошуку в неструктурованих даних меню українською мовою, що дає змогу користувачам легко обирати страви, які розміщено ресторанами.
Description
The article describes the development of a dish search engine for digital restaurant menus in Kyiv, focusing on Ukrainian-speaking users. The system integrates modern Natural Language Processing (NLP) methods such as lemmatization, text classification, and data filtering, alongside Retrieval-Augmented Generation (RAG), specialized ingredient dictionaries, a database, and an ontological knowledge base designed in Protégé. Using rules from the Semantic Web Rule Language (SWRL) and logical inference through the Pellet reasoning engine, the system performs semantic analysis of user queries, automatically identifying relationships between dish components, and improving search relevance. The search algorithm utilizes a multi-layered approach that combines machine learning, logical reasoning, and rule-based filtering. User queries, often containing informal or varied phrasing, are first processed by a large language model (LLM) to identify and standardize key terms. The LLM is enhanced with predefined dictionaries (e.g., for cheese types like “mascarpone”, “brie,” or “cheddar”) and connected to an ontological knowledge base, which enriches the query with semantic relationships. RAG extends this functionality by automatically expanding search terms to include synonyms or related concepts, such as linking “pasta” to “macaroni” or “spaghetti.” The study incorporates principles of computational social science to analyze semi-structured data from digital restaurant menus, such as the popularity of dishes and their ingredients, as well as the impact of restaurant location on pricing. The data highlights trends in customer preferences and provides actionable insights for optimizing restaurant menus. The developed system successfully integrates NLP techniques, logical reasoning, and structured data storage, achieving high accuracy and relevance in search results. By incorporating an LLM, RAG, and ontological reasoning, the system demonstrates the potential for significantly enhancing customer-oriented services in the restaurant industry through advanced data analysis and semantic search tools.
Keywords
обробка природної мови, цифрове меню, заклад харчування, місто Київ, пошуковик, ресторанний бізнес, класифікація текстів, видобування інформації, фільтрація даних, структурований пошук, база даних, база знань, онтологія, Protégé, OWL, SWRL, Pellet, різонер, Retrieval-Augmented Generation, інформаційні технології, інформаційна система, великі мовні моделі, стаття, natural language processing, digital menu, restaurant, Kyiv city, search engine, restaurant business, text classification, information extraction, data filtration, structured search, database, knowledge base, ontology, Protégé, OWL, SWRL, Pellet, reasoner, Retrieval-Augmented Generation, information technologies, information system, large language models
Citation
Смиш О. Р. Структурований оптимізований пошук у неструктурованих даних для задачі аналізу меню / Смиш О. Р., Чижова А. О. // Наукові записки НаУКМА. Комп'ютерні науки. - 2024. - Т. 7. - С. 63-69. - https://doi.org/10.18523/2617-3808.2024.7.63-69