Комментарии 14
Если Вы тоже зависли на видео новостей SpaceX, как и я, то с Вас + к статье :).
Друзья, я понимаю, что сейчас на Хабре релевантны статьи типа: «Я варю мыло и зарабатываю миллион в год», а технические статьи менее востребованы, тем не менее, я надеюсь на Вашу поддержку. Тем более, нажать ↑ и добавить статью в закладки – Вам ничего не стоит, а мне + к мотивации. Спасибо!
Безэмоциональный бубнёж без пауз в один голос - довольно быстро утомляет. Если можно было бы сделать хотя бы разные голоса для собеседников - это было бы очень круто. Про эмоции и мечтать сложно, нельзя воссоздать эмоцию из текста, нужно еще каким-то образом уловить интонации в оригинальном видео.
Вот у меня есть субтитры целого фильма, лично переведенные. С таймингом и указанием помимо имени персонажа еще и типа голоса (мужской/женский/детский). Больше 6 тысяч фраз. Но не представляю как это :
озвучить многоголосьем
озвучить ХОРОШО, а не интонациями робота Вертера
наложить полученную озвучку на оригинальную звуковую дорожку, приглушив оригинальные голоса, но оставив фоновые шумы у музыку (наверное, будет самым простым после первых двух пунктов)
Но в целом - интересная статья, спасибо!
Спасибо за комментарий. Да, мне настолько понравилась работа скрипта, что я тоже уже подумываю о многоголосной озвучке. Но даже и сейчас, с временами "металлической" озвучкой, работа скрипта впечатляет, если честно, то я не ожидал такого результата.
Не думаю, что стоит только мечтать о хорошей озвучке техническими средствами, это скорее вопрос времени. Качества, заложенные в речь, вполне могут быть оцифрованы, переведены в параметрию, настроены и воспроизведены. Бо́льшая часть живости заложена в просодии, включающая в себя: F0 фундаментальная частота/высота голоса, громкость, скорость/длительность, интонация, логические ударения и выделения слов. А также оставшаяся часть, состоящая из свойств качества голоса: смазанность/чёткость, напряжённость, хрипотца, фальцет и т.д. Плюс отдельно артикуляция, и стилистика.
Кажется, чтобы почитать подробнее, можно разгуглить про мел-спектрограммы, в которые уже конвертируются входные данные для извлечения просодии, и ещё GST модули. Плюс в процессе озвучки фильма интегрировать контекст в модель, ну и файн-тюн на выходе для корректировки недочётов. И вот должно получиться что-то весьма неплохое.
Если Вы тоже зависли на видео новостей SpaceX, как и я, то с Вас + к статье :).
Друзья, я понимаю, что сейчас на Хабре релевантны статьи типа: «Я варю мыло и зарабатываю миллион в год», а технические статьи менее востребованы, тем не менее, я надеюсь на Вашу поддержку. Тем более, нажать ↑ и добавить статью в закладки – Вам ничего не стоит, а мне + к мотивации. Спасибо!
Круто, но мне кажется перемудрил немного, у яндекса хорошая реализация озвучки, чем они тебя не устроили? тем более что сообществом уже выпущено кучу утилит к нему.
Ну если с комерческой точки зрения твой вариант, конечно, можно использовать. А вот яндекса нет, как миним из за этических соображений.
Вот если сделать клонирование голосов + перевод, то это вещь, за которой к тебе очередь выстроиться
Очень неплохо! А десктопное приложение не выкладываешь?
Очень интересно. Спасибо за код в Github.
В декабре-2023 "книгалиц" написали у себя в блоге, что у нас есть AI для аудио-перевода... У них есть демка (русский не поддерживается), которую я тогда попробовал (я тут говорю по английски, а меня переводят на испанский):
https://s3.fursov.family/shares/fb_translate.mp4
Тут используется технология VOICE CLONING. Которая сохраняет и тембр голоса и интонацию.
Месяц назад QWEN выкатила вот эту модель:
https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct
Эта модель может:
распознавать аудио (STT)
переводить (LLM)
синтезировать речь (TTS)
У них на сайте есть демка, по 30 секунд работает. Но открытого движка для этой модели вроде бы ещё ни у кого нет. VLLM и llama.cpp могут с этой моделью работать как с LLM, но TTS не поддерживается пока.
А если сравнить с pyVideoTrans - какие преимущества/недостатки, особенности?
Первый раз слышу об этой штуке, да и не было цели сравнивать мое решение с какой-то другой реализацией. Приложение создавалась исключительно ради интеллектуального развлечения. Да и сравнивать что-то с чем-то – это вредная затея для творческих людей. Есть подобные решения у Яндекса, Google и etc – это не значит, что я должен сложить лапки и не пытаться делать что-то подобное, но своё :)

Как я тв-шоу переводил с помощью ML-моделей без подписок и СМС