Комментарии / Профиль EVIL7 / Хабр

Пользователь

Как я тв-шоу переводил с помощью ML-моделей без подписок и СМС

EVIL7 12 дек 2025 в 02:23

Не думаю, что стоит только мечтать о хорошей озвучке техническими средствами, это скорее вопрос времени. Качества, заложенные в речь, вполне могут быть оцифрованы, переведены в параметрию, настроены и воспроизведены. Бо́льшая часть живости заложена в просодии, включающая в себя: F0 фундаментальная частота/высота голоса, громкость, скорость/длительность, интонация, логические ударения и выделения слов. А также оставшаяся часть, состоящая из свойств качества голоса: смазанность/чёткость, напряжённость, хрипотца, фальцет и т.д. Плюс отдельно артикуляция, и стилистика.

Кажется, чтобы почитать подробнее, можно разгуглить про мел-спектрограммы, в которые уже конвертируются входные данные для извлечения просодии, и ещё GST модули. Плюс в процессе озвучки фильма интегрировать контекст в модель, ну и файн-тюн на выходе для корректировки недочётов. И вот должно получиться что-то весьма неплохое.