Не думаю, что стоит только мечтать о хорошей озвучке техническими средствами, это скорее вопрос времени. Качества, заложенные в речь, вполне могут быть оцифрованы, переведены в параметрию, настроены и воспроизведены. Бо́льшая часть живости заложена в просодии, включающая в себя: F0 фундаментальная частота/высота голоса, громкость, скорость/длительность, интонация, логические ударения и выделения слов. А также оставшаяся часть, состоящая из свойств качества голоса: смазанность/чёткость, напряжённость, хрипотца, фальцет и т.д. Плюс отдельно артикуляция, и стилистика.
Кажется, чтобы почитать подробнее, можно разгуглить про мел-спектрограммы, в которые уже конвертируются входные данные для извлечения просодии, и ещё GST модули. Плюс в процессе озвучки фильма интегрировать контекст в модель, ну и файн-тюн на выходе для корректировки недочётов. И вот должно получиться что-то весьма неплохое.
Не думаю, что стоит только мечтать о хорошей озвучке техническими средствами, это скорее вопрос времени. Качества, заложенные в речь, вполне могут быть оцифрованы, переведены в параметрию, настроены и воспроизведены. Бо́льшая часть живости заложена в просодии, включающая в себя: F0 фундаментальная частота/высота голоса, громкость, скорость/длительность, интонация, логические ударения и выделения слов. А также оставшаяся часть, состоящая из свойств качества голоса: смазанность/чёткость, напряжённость, хрипотца, фальцет и т.д. Плюс отдельно артикуляция, и стилистика.
Кажется, чтобы почитать подробнее, можно разгуглить про мел-спектрограммы, в которые уже конвертируются входные данные для извлечения просодии, и ещё GST модули. Плюс в процессе озвучки фильма интегрировать контекст в модель, ну и файн-тюн на выходе для корректировки недочётов. И вот должно получиться что-то весьма неплохое.