Exploration of multimodal approaches in image-to-audio synthesis

Кузьменко, ДмитроБеймук, Володимир2024-10-312024-10-312024https://ekmair.ukma.edu.ua/handle/123456789/32111Це дослідження зосереджено на вивченні різних підходів до генерації аудіо з зображень, розгляді їхньої поведінки та вдосконалюючи їхні можливості за допомогою перевірки окремих гіпотез. Воно включає аналіз та порівняння сучасних моделей, які використовуються в цій галузі. Значна увага приділяється моделям SpecVQGAN та IM2WAV, які демонструють новітні методи з використанням глибинного навчання для синтезу точного та послідовного аудіопотоку. Також розглядаються техніки регуляризації, і аналіз їхнього впливу на якість моделей. Важливість дослідження зумовлена потенційним застосуванням у таких областях, як підтримка людей із вадами зору, віртуальна реальність, освітні інструменти та виробництво звукових ефектів у фільмах чи відеоіграх.ukгенерація аудіо з зображеньглибоке навчаннягенеративні моделітрансфоремитехніки регуляризаціїкурсова роботаExploration of multimodal approaches in image-to-audio synthesisOther