Exploration of multimodal approaches in image-to-audio synthesis
Loading...
Date
2024
Authors
Беймук, Володимир
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Це дослідження зосереджено на вивченні різних підходів до генерації аудіо з зображень, розгляді їхньої поведінки та вдосконалюючи їхні можливості за допомогою перевірки окремих гіпотез. Воно включає аналіз та порівняння сучасних моделей, які використовуються в цій галузі. Значна увага приділяється моделям SpecVQGAN та IM2WAV, які демонструють новітні методи з використанням глибинного навчання для синтезу точного та послідовного аудіопотоку. Також розглядаються техніки регуляризації, і аналіз їхнього впливу на якість моделей. Важливість дослідження зумовлена потенційним застосуванням у таких областях, як підтримка людей із вадами зору, віртуальна реальність, освітні інструменти та виробництво звукових ефектів у фільмах чи відеоіграх.
Description
Keywords
генерація аудіо з зображень, глибоке навчання, генеративні моделі, трансфореми, техніки регуляризації, курсова робота