Pull to refresh

Microsoft создала инструмент имитации любого голоса, которому достаточно трёхсекундного образца

Reading time1 min
Views8.8K

Компания Microsoft объявила о создании инструмента для имитации любого голоса, которому достаточно трёх секунд звука этого голоса. Модель разработанного искусственного интеллекта названа VALL-E. 

По утверждению разработчиков, модель способна точно воспроизвести голос любого человека — для этого модели достаточно трёхсекундного образца. Услышав конкретный голос, VALL-E создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

Технология представляет собой нейронную языковую модель, в основе которой лежит EnCodec. VALL-E с помощью неё разделяет голос человека на отдельные компоненты. Потом эти компоненты — ещё их называют лексемы — нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз.

Хоть Microsoft и представила на GitHub эту языковую модель, она не опубликовала код VALL-E в открытом доступе. Компания считает, что может быть риск неправильного использования модели. Например, подмену идентификации голоса или выдачу себя за конкретного актёра озвучивания или диктора.

Tags:
Hubs:
Total votes 14: ↑14 and ↓0+14
Comments45

Other news