Как стать автором
Обновить

Microsoft создала инструмент имитации любого голоса, которому достаточно трёхсекундного образца

Время на прочтение1 мин
Количество просмотров8.8K

Компания Microsoft объявила о создании инструмента для имитации любого голоса, которому достаточно трёх секунд звука этого голоса. Модель разработанного искусственного интеллекта названа VALL-E. 

По утверждению разработчиков, модель способна точно воспроизвести голос любого человека — для этого модели достаточно трёхсекундного образца. Услышав конкретный голос, VALL-E создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

Технология представляет собой нейронную языковую модель, в основе которой лежит EnCodec. VALL-E с помощью неё разделяет голос человека на отдельные компоненты. Потом эти компоненты — ещё их называют лексемы — нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз.

Хоть Microsoft и представила на GitHub эту языковую модель, она не опубликовала код VALL-E в открытом доступе. Компания считает, что может быть риск неправильного использования модели. Например, подмену идентификации голоса или выдачу себя за конкретного актёра озвучивания или диктора.

Теги:
Хабы:
Всего голосов 14: ↑14 и ↓0+14
Комментарии45

Другие новости

Истории

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань