Pull to refresh

Comments 7

Мне в принципе кажется что с ML нынче творится GPU-шовинизм какой-то. Наглядный пример - llama, которая и на CPU показывает хорошие результаты. Осталось только научить модели нормально обучаться на CPU, а не требовать от них эквивалента сотен лет человеческого времени для этого.

UFO just landed and posted this here

Это связано с матричными операциями - современные нейронки не векторные(как были раньше - полносвязные), а матричные (свертки, пулинги и механизмы внимания). Это позволяет часто сильно сократить размер нейронки и за счет этого выиграть: меньше неизвестных коэффициентов - нужен меньший датасет для достижения той-же точности, и устойчивей получающееся решение. Использование GPU - просто следствие этого. Они и без GPU тренируются, просто дольше. Понятно, что есть способы дополнительно сократить размеры сети, чтобы ускорить обучение, но этим сейчас заморачиваются не в первую очередь, пока ресурсы позволяют. Сделать точную и маленькую нейронку - это особое искусство, там очень много факторов надо учитывать одновременно.

Мне пока ещё не попадалась модель для синтеза речи, пригодная для озвучки игр или мультфильмов. Всё сплошь говорилки, которым нельзя дать указание, с какой интонацией произносить текст. Чтобы например проставить тег "сарказм" и модель произносила фразу саркастически. Или теги "шёпот", "стон", "крик", "усталость", "ворчание", "восторг"…
Нигде нет даже банальной возможности гибко разметить громкость / тонизацию / темп произносимого.
Если текстовые модели и модели для генерации изображений уже юзабельны в этом плане, то вот синтез речи в зачаточном состоянии.

громкость / тонизацию / темп произносимого

Ну мягко говоря это - неправда. Даже в нашей публичной модели есть контроль скорости и высоты речи. Громкость мы поленились сделать для публичного релиза, но в принципе и это несложно.

Чтобы например проставить тег "сарказм" и модель произносила фразу саркастически.

Конкретно это мне кажется чем-то в духе рисования энного количества перпендикулярных линий прозрачного цвета из известного видоса. Мне кажется фишка сарказма в том, что его говорят с покерфейсом, и слушатель такой у себя в голове достраивает - а серьезно ли это? Сарказм ли это?

"стон", "крик", "усталость", "ворчание", "восторг"…

И тут на самом деле всё немного не так. Даже в нашем боте уже есть модель, которая позволяет из входного аудио копировать манеру речи. Понятно, что сейчас модель сильно зависит от качества входного аудио, далеко не все голоса хорошо работают, и там много прелестей первого релиза, но если записать в микрофон и не сильно усердствовать, то оно хорошо позволяет притворяться тяночкой в интернете, например.

Не буду спорить насчет юзабельности разных доменных моделей, в речи основная проблема в том, что нет нормальных общепринятых способов пометки всех этих особенностей речи, таких например как музыкальная нотация.

"

"...саркастически."

Конкретно это мне кажется чем-то в духе рисования энного количества перпендикулярных линий прозрачного цвета из известного видоса
"

Да-да-да. (вполне можно произнести в саркастической интонации. А вот чем она достигается, я не знаю)

P.S. что-то я не осилил цитирование в этом редакторе комментариев. Чужое скопировать могу, а своё добавить - нет

Кстати, уже есть игра где вся озвучка сгененерена - https://store.steampowered.com/app/1646850/SpaceBourne_2/

Качество озвучки там гораздо хуже чем у Silero, но там это даже к месту - легко представить что все встречные говорят на незнакомых тебе языках и их в реалтайме переводит дешманский автопереводчик.

Сама игра кстати достойна внимания по концепции, эдакий Star Citizen на минималках, сделанный одним человеком. Ну или ещё тот самый Freelancer напоминает, только сильно расширенный.

Sign up to leave a comment.

Articles