Нейросеть научилась подбирать звук для беззвучных видео

80250

12 декабря 2021, 17:26 Женя Заякина

Новая технология получила название Soundify. Над проектом работали ученые из Университета Карнеги-Мелона и специалисты компании Runway.

Чтобы сопоставить звук с изображением, ученые использовали отдельные программы для анализа аудио и видео. Исходный ролик был разделен по кадрам для анализа цветовой гистограммы между соседними изображениями. После этого исследователи разделили звуки на две категории: объекты на видео, которые производят конкретный шум, и фоновые звуки.

Затем ученые пропустили видео через нейросеть, которая делает отметки на каждом кадре, и искусственный интеллект подобрал пять наиболее подходящих звуков для каждой сцены. На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео.

Нейросеть научилась подбирать звук для беззвучных видео

Последние новости