Exploration of multimodal approaches in image-to-audio synthesis
dc.contributor.advisor | Кузьменко, Дмитро | |
dc.contributor.author | Беймук, Володимир | |
dc.date.accessioned | 2024-10-31T09:07:25Z | |
dc.date.available | 2024-10-31T09:07:25Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Це дослідження зосереджено на вивченні різних підходів до генерації аудіо з зображень, розгляді їхньої поведінки та вдосконалюючи їхні можливості за допомогою перевірки окремих гіпотез. Воно включає аналіз та порівняння сучасних моделей, які використовуються в цій галузі. Значна увага приділяється моделям SpecVQGAN та IM2WAV, які демонструють новітні методи з використанням глибинного навчання для синтезу точного та послідовного аудіопотоку. Також розглядаються техніки регуляризації, і аналіз їхнього впливу на якість моделей. Важливість дослідження зумовлена потенційним застосуванням у таких областях, як підтримка людей із вадами зору, віртуальна реальність, освітні інструменти та виробництво звукових ефектів у фільмах чи відеоіграх. | uk_UA |
dc.identifier.uri | https://ekmair.ukma.edu.ua/handle/123456789/32111 | |
dc.language.iso | uk | uk_UA |
dc.status | first published | uk_UA |
dc.subject | генерація аудіо з зображень | uk_UA |
dc.subject | глибоке навчання | uk_UA |
dc.subject | генеративні моделі | uk_UA |
dc.subject | трансфореми | uk_UA |
dc.subject | техніки регуляризації | uk_UA |
dc.subject | курсова робота | uk_UA |
dc.title | Exploration of multimodal approaches in image-to-audio synthesis | uk_UA |
dc.type | Other | uk_UA |