Exploration of multimodal approaches in image-to-audio synthesis

Беймук, Володимир

Exploration of multimodal approaches in image-to-audio synthesis

Files

Beimuk_Kursova_robota.pdf (1.24 MB)

Date

2024

Authors

Беймук, Володимир

Abstract

Це дослідження зосереджено на вивченні різних підходів до генерації аудіо з зображень, розгляді їхньої поведінки та вдосконалюючи їхні можливості за допомогою перевірки окремих гіпотез. Воно включає аналіз та порівняння сучасних моделей, які використовуються в цій галузі. Значна увага приділяється моделям SpecVQGAN та IM2WAV, які демонструють новітні методи з використанням глибинного навчання для синтезу точного та послідовного аудіопотоку. Також розглядаються техніки регуляризації, і аналіз їхнього впливу на якість моделей. Важливість дослідження зумовлена потенційним застосуванням у таких областях, як підтримка людей із вадами зору, віртуальна реальність, освітні інструменти та виробництво звукових ефектів у фільмах чи відеоіграх.

Keywords

генерація аудіо з зображень, глибоке навчання, генеративні моделі, трансфореми, техніки регуляризації, курсова робота

URI

https://ekmair.ukma.edu.ua/handle/123456789/32111

Collections

Факультет інформатики

Full item page