Обновить

Как я тв-шоу переводил с помощью ML-моделей без подписок и СМС

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9.8K
Всего голосов 18: ↑17 и ↓1+18
Комментарии14

Комментарии 14

ЗакрепленныеЗакреплённые комментарии

Если Вы тоже зависли на видео новостей SpaceX, как и я, то с Вас + к статье :).

Друзья, я понимаю, что сейчас на Хабре релевантны статьи типа: «Я варю мыло и зарабатываю миллион в год», а технические статьи менее востребованы, тем не менее, я надеюсь на Вашу поддержку. Тем более, нажать и добавить статью в закладки – Вам ничего не стоит, а мне + к мотивации. Спасибо!

Безэмоциональный бубнёж без пауз в один голос - довольно быстро утомляет. Если можно было бы сделать хотя бы разные голоса для собеседников - это было бы очень круто. Про эмоции и мечтать сложно, нельзя воссоздать эмоцию из текста, нужно еще каким-то образом уловить интонации в оригинальном видео.

Вот у меня есть субтитры целого фильма, лично переведенные. С таймингом и указанием помимо имени персонажа еще и типа голоса (мужской/женский/детский). Больше 6 тысяч фраз. Но не представляю как это :

  • озвучить многоголосьем

  • озвучить ХОРОШО, а не интонациями робота Вертера

  • наложить полученную озвучку на оригинальную звуковую дорожку, приглушив оригинальные голоса, но оставив фоновые шумы у музыку (наверное, будет самым простым после первых двух пунктов)

Но в целом - интересная статья, спасибо!

Спасибо за комментарий. Да, мне настолько понравилась работа скрипта, что я тоже уже подумываю о многоголосной озвучке. Но даже и сейчас, с временами "металлической" озвучкой, работа скрипта впечатляет, если честно, то я не ожидал такого результата.

Не думаю, что стоит только мечтать о хорошей озвучке техническими средствами, это скорее вопрос времени. Качества, заложенные в речь, вполне могут быть оцифрованы, переведены в параметрию, настроены и воспроизведены. Бо́льшая часть живости заложена в просодии, включающая в себя: F0 фундаментальная частота/высота голоса, громкость, скорость/длительность, интонация, логические ударения и выделения слов. А также оставшаяся часть, состоящая из свойств качества голоса: смазанность/чёткость, напряжённость, хрипотца, фальцет и т.д. Плюс отдельно артикуляция, и стилистика.

Кажется, чтобы почитать подробнее, можно разгуглить про мел-спектрограммы, в которые уже конвертируются входные данные для извлечения просодии, и ещё GST модули. Плюс в процессе озвучки фильма интегрировать контекст в модель, ну и файн-тюн на выходе для корректировки недочётов. И вот должно получиться что-то весьма неплохое.

Если Вы тоже зависли на видео новостей SpaceX, как и я, то с Вас + к статье :).

Друзья, я понимаю, что сейчас на Хабре релевантны статьи типа: «Я варю мыло и зарабатываю миллион в год», а технические статьи менее востребованы, тем не менее, я надеюсь на Вашу поддержку. Тем более, нажать и добавить статью в закладки – Вам ничего не стоит, а мне + к мотивации. Спасибо!

Круто, но мне кажется перемудрил немного, у яндекса хорошая реализация озвучки, чем они тебя не устроили? тем более что сообществом уже выпущено кучу утилит к нему.

Ну если с комерческой точки зрения твой вариант, конечно, можно использовать. А вот яндекса нет, как миним из за этических соображений.

Вот если сделать клонирование голосов + перевод, то это вещь, за которой к тебе очередь выстроиться

Причем здесь Яндекс?

Очень неплохо! А десктопное приложение не выкладываешь?

Спасибо! А десктопное приложение выложил на GitHub'е, ссылка в конце статьи.

Спасибо, брат, дай тебе Всевышний много счастья в жизни. 🥰

Всегда пожалуйста, и тебе всех благ!

Очень интересно. Спасибо за код в Github.

В декабре-2023 "книгалиц" написали у себя в блоге, что у нас есть AI для аудио-перевода... У них есть демка (русский не поддерживается), которую я тогда попробовал (я тут говорю по английски, а меня переводят на испанский):

https://s3.fursov.family/shares/fb_translate.mp4

Тут используется технология VOICE CLONING. Которая сохраняет и тембр голоса и интонацию.

Месяц назад QWEN выкатила вот эту модель:

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

Эта модель может:

  • распознавать аудио (STT)

  • переводить (LLM)

  • синтезировать речь (TTS)

У них на сайте есть демка, по 30 секунд работает. Но открытого движка для этой модели вроде бы ещё ни у кого нет. VLLM и llama.cpp могут с этой моделью работать как с LLM, но TTS не поддерживается пока.

Интересно, надо попробовать, вроде как Qwen3 Omni-30B можно запустить локально. Спасибо за наводку.

А если сравнить с pyVideoTrans - какие преимущества/недостатки, особенности?

Первый раз слышу об этой штуке, да и не было цели сравнивать мое решение с какой-то другой реализацией. Приложение создавалась исключительно ради интеллектуального развлечения. Да и сравнивать что-то с чем-то – это вредная затея для творческих людей. Есть подобные решения у Яндекса, Google и etc – это не значит, что я должен сложить лапки и не пытаться делать что-то подобное, но своё :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации