Microsoft создала инструмент имитации любого голоса, которому достаточно трёхсекундного образца / Хабр

Компания Microsoft объявила о создании инструмента для имитации любого голоса, которому достаточно трёх секунд звука этого голоса. Модель разработанного искусственного интеллекта названа VALL-E.

По утверждению разработчиков, модель способна точно воспроизвести голос любого человека — для этого модели достаточно трёхсекундного образца. Услышав конкретный голос, VALL-E создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

Технология представляет собой нейронную языковую модель, в основе которой лежит EnCodec. VALL-E с помощью неё разделяет голос человека на отдельные компоненты. Потом эти компоненты — ещё их называют лексемы — нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз.

Хоть Microsoft и представила на GitHub эту языковую модель, она не опубликовала код VALL-E в открытом доступе. Компания считает, что может быть риск неправильного использования модели. Например, подмену идентификации голоса или выдачу себя за конкретного актёра озвучивания или диктора.

Microsoft создала инструмент имитации любого голоса, которому достаточно трёхсекундного образца

Другие новости

Ближайшие события