AudioCraft состоит из трех частей: MusicGen, AudioGen и EnCodec. Каждый из них выполняет свои функции. MusicGen — обучен принадлежащей Meta* музыке, а AudioGen — общедоступной. Улучшенная технология EnCodec позволяет генерировать музыку с меньшим количеством шумов и ошибок.
В Meta* также отметили, что создание звука с помощью искусственного интеллекта все еще не так популярно, как та же разработка с видео и картинками. AudioCraft должна стать уникальной моделью, производящей высококачественный звук с долговременной стабильностью.«Мы считаем, что простой подход, который мы разработали для создания надежных звуковых образцов, окажет существенное влияние на разработку передовых моделей взаимодействия человека и нейросети. Нам не терпится увидеть, что создадут люди с помощью AudioCraft», — написали в блоге компании.
Прочитать больше про разработку и услышать примеры работы AudioCraft можно в блоге компании. Модели доступны для исследовательских целей.
* — признана экстремистcкой организацией в России.
