CyberexTech11 дек 2025 в 04:37

Как я тв-шоу переводил с помощью ML-моделей без подписок и СМС

Средний

12 мин

11K

Искусственный интеллектNatural Language Processing * Python * DIY или Сделай сам

Кейс

Сезон ИИ в разработке

+18

Комментарии 14

Закреплённые комментарии

CyberexTech 11 дек 2025 в 08:14

Если Вы тоже зависли на видео новостей SpaceX, как и я, то с Вас + к статье :).

Друзья, я понимаю, что сейчас на Хабре релевантны статьи типа: «Я варю мыло и зарабатываю миллион в год», а технические статьи менее востребованы, тем не менее, я надеюсь на Вашу поддержку. Тем более, нажать ↑ и добавить статью в закладки – Вам ничего не стоит, а мне + к мотивации. Спасибо!

FlyingDutchman 11 дек 2025 в 07:59

Безэмоциональный бубнёж без пауз в один голос - довольно быстро утомляет. Если можно было бы сделать хотя бы разные голоса для собеседников - это было бы очень круто. Про эмоции и мечтать сложно, нельзя воссоздать эмоцию из текста, нужно еще каким-то образом уловить интонации в оригинальном видео.

Вот у меня есть субтитры целого фильма, лично переведенные. С таймингом и указанием помимо имени персонажа еще и типа голоса (мужской/женский/детский). Больше 6 тысяч фраз. Но не представляю как это :

озвучить многоголосьем
озвучить ХОРОШО, а не интонациями робота Вертера
наложить полученную озвучку на оригинальную звуковую дорожку, приглушив оригинальные голоса, но оставив фоновые шумы у музыку (наверное, будет самым простым после первых двух пунктов)

Но в целом - интересная статья, спасибо!

CyberexTech 11 дек 2025 в 08:10

Спасибо за комментарий. Да, мне настолько понравилась работа скрипта, что я тоже уже подумываю о многоголосной озвучке. Но даже и сейчас, с временами "металлической" озвучкой, работа скрипта впечатляет, если честно, то я не ожидал такого результата.

EVIL7 12 дек 2025 в 02:23

Не думаю, что стоит только мечтать о хорошей озвучке техническими средствами, это скорее вопрос времени. Качества, заложенные в речь, вполне могут быть оцифрованы, переведены в параметрию, настроены и воспроизведены. Бо́льшая часть живости заложена в просодии, включающая в себя: F0 фундаментальная частота/высота голоса, громкость, скорость/длительность, интонация, логические ударения и выделения слов. А также оставшаяся часть, состоящая из свойств качества голоса: смазанность/чёткость, напряжённость, хрипотца, фальцет и т.д. Плюс отдельно артикуляция, и стилистика.

Кажется, чтобы почитать подробнее, можно разгуглить про мел-спектрограммы, в которые уже конвертируются входные данные для извлечения просодии, и ещё GST модули. Плюс в процессе озвучки фильма интегрировать контекст в модель, ну и файн-тюн на выходе для корректировки недочётов. И вот должно получиться что-то весьма неплохое.

CyberexTech 11 дек 2025 в 08:14

Если Вы тоже зависли на видео новостей SpaceX, как и я, то с Вас + к статье :).

MaMen 11 дек 2025 в 16:03

Круто, но мне кажется перемудрил немного, у яндекса хорошая реализация озвучки, чем они тебя не устроили? тем более что сообществом уже выпущено кучу утилит к нему.

Ну если с комерческой точки зрения твой вариант, конечно, можно использовать. А вот яндекса нет, как миним из за этических соображений.

Вот если сделать клонирование голосов + перевод, то это вещь, за которой к тебе очередь выстроиться

CyberexTech 11 дек 2025 в 16:04

Причем здесь Яндекс?

evilpechenka 12 дек 2025 в 14:20

Очень неплохо! А десктопное приложение не выкладываешь?

CyberexTech 12 дек 2025 в 16:02

Спасибо! А десктопное приложение выложил на GitHub'е, ссылка в конце статьи.

evilpechenka 12 дек 2025 в 16:04

Спасибо, брат, дай тебе Всевышний много счастья в жизни. 🥰

CyberexTech 12 дек 2025 в 16:21

Всегда пожалуйста, и тебе всех благ!

SlavikF 12 дек 2025 в 17:19

Очень интересно. Спасибо за код в Github.

В декабре-2023 "книгалиц" написали у себя в блоге, что у нас есть AI для аудио-перевода... У них есть демка (русский не поддерживается), которую я тогда попробовал (я тут говорю по английски, а меня переводят на испанский):

https://s3.fursov.family/shares/fb_translate.mp4

Тут используется технология VOICE CLONING. Которая сохраняет и тембр голоса и интонацию.

Месяц назад QWEN выкатила вот эту модель:

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

Эта модель может:

распознавать аудио (STT)
переводить (LLM)
синтезировать речь (TTS)

У них на сайте есть демка, по 30 секунд работает. Но открытого движка для этой модели вроде бы ещё ни у кого нет. VLLM и llama.cpp могут с этой моделью работать как с LLM, но TTS не поддерживается пока.

CyberexTech 13 дек 2025 в 06:23

Интересно, надо попробовать, вроде как Qwen3 Omni-30B можно запустить локально. Спасибо за наводку.

Dreamsthinker 16 дек 2025 в 16:16

А если сравнить с pyVideoTrans - какие преимущества/недостатки, особенности?

CyberexTech 17 дек 2025 в 02:39

Первый раз слышу об этой штуке, да и не было цели сравнивать мое решение с какой-то другой реализацией. Приложение создавалась исключительно ради интеллектуального развлечения. Да и сравнивать что-то с чем-то – это вредная затея для творческих людей. Есть подобные решения у Яндекса, Google и etc – это не значит, что я должен сложить лапки и не пытаться делать что-то подобное, но своё :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий