Компания Microsoft объявила о создании инструмента для имитации любого голоса, которому достаточно трёх секунд звука этого голоса. Модель разработанного искусственного интеллекта названа VALL-E.
По утверждению разработчиков, модель способна точно воспроизвести голос любого человека — для этого модели достаточно трёхсекундного образца. Услышав конкретный голос, VALL-E создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.
Технология представляет собой нейронную языковую модель, в основе которой лежит EnCodec. VALL-E с помощью неё разделяет голос человека на отдельные компоненты. Потом эти компоненты — ещё их называют лексемы — нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз.
Хоть Microsoft и представила на GitHub эту языковую модель, она не опубликовала код VALL-E в открытом доступе. Компания считает, что может быть риск неправильного использования модели. Например, подмену идентификации голоса или выдачу себя за конкретного актёра озвучивания или диктора.