Мультимодальний RAG з використанням текстових та візуальних даних

Loading...
Thumbnail Image
Date
2025
Authors
Шевченко, Михайло
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
У роботі розглянуто техніку мультимодального Retrieval-Augmented Generation (з англ. генерація з доповненою вибіркою, RAG) для покращення результатів роботи систем генерування контенту. Проведено аналіз сутності RAG і мультимодального RAG, їхніх переваг, архітектур, а також популярних інструментів для розробки мультимодальних RAG-систем. Було розроблено мультимодальну RAG-систему для аналізу та інтерпретації рентгенівських знімків грудної клітки та їхніх звітів. Розроблену систему протестовано у різних конфігураціях за низкою показників. Результати тестування засвідчили значне покращення якості генерації контенту при використанні мультимодального RAG порівняно з його відсутністю.
Description
Keywords
RAG, мультимодальний RAG, Retrieval-Augmented Generation, LLM, Large Language Models, Python, PyTorch, CLIP, BiomedCLIP, LLaVA, LLaVA-Med, бакалаврська робота
Citation