Создатели утверждают, что VALL-E 2 на основе искусственного интеллекта может убедительно воссоздать человеческий голос, используя всего несколько секунд звука. По словам исследователей, сгенерированная речь схожа с естественным произношением. Технология способна создавать настолько убедительное звучание, что с ее помощью собеседник будет принимать нейросеть за реального человека.
Также технология в речи не допускает ошибок в сложных предложениях и тавтологии. В ней встроены две ключевые функции: «Выборка с учетом повторений» и «Моделирование сгруппированного кода». VALL-E 2 может варьировать манеру речи, делая ее звучание более плавным и естественным. Исследователи проводили анализ работы генератора голоса с помощью образцов аудио из библиотек LibriSpeech и VCTK. Они выявили, что технология превосходит предыдущие системы TTS по сходству речи и естественности звучания. По мнению разработчиков, проект впервые достиг человеческого паритета по этим показателям.
Представители компании Microsoft заявили, что не будет выпускать VALL-E 2 на широкую публику из-за потенциальных рисков неправильного использования. Специалисты обеспокоены возможностью клонирования голоса и создания дипфейков в преступных целях. Поэтому на данный момент у разработчиков нет планов по включению VALL-E 2 в продукт или расширению доступа для общественности. Они призывают считать проект исключительно исследовательским.
Ученые предположили, что генераторы голоса на основе искусственного интеллекта могут найти практическое применение в будущем. Технология имеет перспективы в сферах образования, развлечения, журналистики, блогинга. Также она может быть встроена в интерактивные системы ответа и перевода, чат-боты. Для этого VALL-E 2 необходимо иметь модель обнаружения синтезированной речи и протокол гарантии — человек должен давать согласие на использование своего голоса.
