Комментарии 30
Результаты можно посмотреть на моем сайте.
Все сайты недоступны. Только через вэпээн?
Я тоже работаю в этом направлении (двуязычные субтитры + обучающая программа). См., например в
https://lecole.free.nf/video.php .
Очень странно. Должно работать.
Я сейчас вижу трафик на сайте.

Очень странно. Должно работать.
Через вэпээн – работает, а так нет. Вот, глянул, немного, французский вариант «Анны Карениной». Идея у вас хорошая, но, контент немного напрягает. Много шума, звука, речь тихая. И, главное, стиль «страсти-мордасти». Для целей освоения (французского) языка хочется чего-то нейтрального, с чистой речью, вроде мультиков либо подходящих роликов с Ютуба. Так что, пошел я делать свои титры…
В том-то и челлендж, что в фильмах (которые интереснее смотреть, чем специально разработанные учебные видео) всегда "много шума, звука".
Кстати, Анна Каренина - это очень простой фильм для транскрибации, и речь мне там тихой совсем не кажется. Вы Астерикса посмотрите - вот там реально много хаоса, и там мои алгоритмы работают на пределе.
Контент я подбираю в первую очередь по рейтингу. У Анны Карениной 7.2 на IMDB - это хороший фильм.
В том-то и челлендж, что в фильмах (которые интереснее смотреть, чем специально разработанные учебные видео) всегда "много шума, звука".
Ну, для продвинутых это, наверное, нормально – разбирать речь в живом потоке. Однако, для начинающих лучше, думаю, более спокойные видео. Тем более, что есть ролики, в которых говорят об интересных вещах, без лишней экспрессивности.
Кстати, Анна Каренина - это очень простой фильм для транскрибации, и речь мне там тихой совсем не кажется. Вы Астерикса посмотрите - вот там реально много хаоса, и там мои алгоритмы работают на пределе.
В ролике «Santiago des mers (Сантьяго морей) - 1-й эпизод» ( https://lecole.free.nf/Video/FrRu0000.php ) тоже распознавать речь было исключительно тяжело. Мне кажется, трудно понять друг друга, пока не будет сравнения по единой метрике. Вот если бы, я увидел реальную работу ваших алгоритмов, которые «работают на пределе» на примере этого классного французского мультика, то я бы тогда, наверняка, смог бы оценить уровень ваших достижений. А без реального сравнения, трудно что-либо понять.
Я обработал этот мультик, результаты в Гугл-драйве.
Всё получилось, особых проблем с транскрибацией этого мультика у моих алгоритмов не было. Метрики довольно высокие. Я ничего вручную не исправлял.
Файл плеера - это play_top_True_no.html из ru_local.
Я обработал этот мультик, результаты в Гугл-драйве.
Вот! Теперь, более-менее, понятно! Первое впечатление, для автоматической обработки – очень круто! Да, я бы немного навел марафет на вывод субтитров, но это уже – придирки.
Я не очень понял, насчет «транскрибации с помощью ASR-моделей». Это локальные модели или ИИ-сервисы? Платные или бесплатные?
Для детекции речи я использую локальную VAD-модель Silero
Ну, есть неплохие бесплатные сервисы, которые отделяют речь от шума или музыки, т.е., дают чистый вокал, до 10-15 минут, как и неплохие бесплатные сервисы по распознаванию речи. Используя вэпээн, можно снимать эти ограничения.
Есть локальные модели Vosk, которые делают тайминг для каждого слова.
Я именно так и получал свои субтитры, но без подсветки слов и html-страницы для плейера не делал, ограничивался внешними ssa-субтитрами (которые можно прожечь на вилео, с помощью ffmpeg).
Что касается перевода, то, опять же, для автомата – супер! Но, для большего удовольствия, ручная правка не помешала бы.
В целом, для меня, полезна идея подсветки слов. По переводу, я придерживаюсь метода БКП (буквальный контекстный перевод). Сайтами пользуюсь бесплатными, поэтому, такого уровня организации как у вас, позволить себе не могу.
В целом, ваш проект, думаю, очень перспективен. Только над «мордой лица» сайта, я бы поработал. Например, постарался бы сделать в стиле: https://filmynet.free.nf , https://just.free.nf либо аналогичных. У меня на сайтостраение сил уже не остается. В данном случае, занят разработкой второй версии своей обучающей программы «L'école».
Удачи, вам, в проекте!
Это локальные модели или ИИ-сервисы? Платные или бесплатные?
Это могут быть либо локальные модели (например, Whisper), либо платные сервисы по API. Какие модели использовать, прописывается в конфиге. В данном случае я использовал платный ElevenLabs Scribe. Локальный Whisper похуже, но я бы не сказал, что между ними прям пропасть.
Ну, есть неплохие бесплатные сервисы, которые отделяют речь от шума или музыки
Да, можно и специальными моделями это делать.
Я экспериментировал с одной локальной моделью. Она предназначена для музыки. С песнями работает очень хорошо, но для остального содержания фильмов разницы почти нет
Есть локальные модели Vosk, которые делают тайминг для каждого слова.
Я для этих целей использую вот эту локальную модель, она работает на куче языков (справилась даже со старофранцузским)
А с субтитрами вообще схема рабочая для изучения иностранного языка? Казалось, всегда лучше пересматривать известные, тысячу раз просмотренные-пересмотренные фильмы ранее в дубляже которые, на этот раз, будут звучать, условно, на том же английском языке. Т.к. контекст точно помнишь и понимаешь какие слова, фраза или диалог из дублированного перевода конкретно сейчас к чему соотносится и как звучат дословно именно в оригинале (I'll be back -> Я вернусь).
где Якин гадает, какой актёр “играет царя", советские актёры заменены на англоязычных
Зачем? Адаптировать можно "Смотри не перепутай, Нельсон", такой же бесконечно далекий исторический деятель как Кутузов, а Якину-то Смоктуновский коллега и давний друг, "Кеша", причем тут какие бы то ни было актеры по ту сторону железного занавеса? Вы про бесплатное молоко за вредный царский труд подите адаптируйте, а не вот это)
Я в статье привел простой пример. Для англоязычного зрителя имя русского актера - это просто набор звуков, а так что-то знакомое.
бесплатное молоко за вредный царский труд
Мой переводчик нормально адаптировал - "tsars deserve hazard pay"
Ну фильм с русскими актерами и сугубо русскими и советскими реалиями этот зритель ведь включил, пусть вне сюжета перечисленные фамилии и останутся для него не знакомее фамилии Yakin, ясно же что в мире фильма сна Шурика сей Якин не раз снимал их в гриме и без грима и вполне ожидал встретить дома у актрисы Зины Тимофеевой, к забугорному Хотькомуто Известному всё это применимо уже с куда большим трудом, во всяком случае пока "играет" он не какого-нибудь короля Генриха VIII со всеми прочими сопутствующими адаптациями
hazard pay
Ну это не адаптация же, прямой смысл тезиса Бунши передан, но весь его комизм полностью проигнорирован, выходит что самодур всего-навсего объявляет подданым "моя служба и опасна и трудна (hazard - опасность), платите мне отдельно еще и за это", хотя на самом деле он выдает конкретный и семантически понятный и придворным Грозного образ "бесплатного молока", стойко ассоциирующийся с советскими производствами и нелепо анахроничный из уст "царя", которому вот буквально только что накрыли стол бесплатных явств побогаче бутылки с молоком в довесок к зарплате
С благодарностью скачал бы подобное решение для локального перевода обучающих видео ("коллекционирую" видео по blender 3d. inkscape, krita, gimp, godot), закачанных в своё время с ютюба. Пока что приходится довольствоваться или просмотром на языке оригинала (что, честно говоря, тяжеловато), или загрузкой на рутюб с последующим просмотром через яндекс-браузер, но рутюб шакалит качество - заливаешь 1080, а на выходе получаешь... типа 1080, но пережатое под 480, что для тематики работы с программами (у которых и без того мелкий интерфейс) смерти подобно.
Какие фичи для вас критичны, а какие нет?
Если вам нужно просто перевести построчно (причем, вам не нужен художественный адаптивный перевод) спокойные видео на английском, то можно сделать намного проще: транскрибируйте локально виспером, переводите бесплатными тулами (GoogleTranslate, DeepL, ChatGPT). Да, качество перевода будет хреновое, но смотреть будет можно. Существуют обертки над виспером, которые еще forced alignement делают.
Кстати, если вы эти видео скачиваете с ютуба, то что вам мешает также скачать ютубовские субтитры и переводы? На английском они более-менее ок (субтитры, переводы очень деревянные).
В чем суть моего решения:
Транскрибировать фильмы намного сложнее, чем спокойные видео из-за шумов, посторонних звуков, музыки и прочего. Кроме того, ASR-модели работают намного лучше на английском, чем на русском или французском (не говоря уже про более редкие языки, там вообще бывает лютый треш). Я выстроил сложный пайплайн транскрибации ради увеличения точности.
С помощью либо внешних субтитров, либо просто вручную можно свести ошибки транскрибации к нулю
Я делаю качественный адаптивный перевод дорогой моделью (Claude 4.5 Opus)
Я также делаю буквальный пословный перевод, который стоит еще дороже, чем адаптивный перевод строк
Я упаковываю это все в плеер, специально сделанный для изучения языков
Перевод нужен для технических видео - в них нет посторонних шумов и музыки (хотя... в некоторых видео музыка всё же может быть подложена фоном, но таких видео немного). Литературность и близость к оригиналу особого значения не имеет - всё равно что-то будет домысливаться. Важно, чтобы текст обратно озвучивался (тяжело смотреть на экран, чтобы уловить, куда там мышкой ткнули в меню, и оно тут же исчезло). Важен темп речи (чтобы когда на английском тараторят, русский перевод не должен запаздывать). Важно, чтобы не приходилось вручную бить задачу на огромное количество однотипных кусочков (как озвучка текста некоторыми нейросетями, где лимит на длину фрагмента в районе тысячи знаков или даже меньше). Хотя, если разобраться, озвучка такими короткими фрагментами упрощает последующую связку голоса с видео... но для меня здесь пока что очень много неясностей, что и как делать...
Возможно, ближе к лету у меня появится чуть больше свободного времени и я доберусь до автоматизации пайплайна озвучки. По идее, можно вручную нарезать исходное видео на короткие фрагменты (чтобы попасть в естественные паузы между фразами), после чего выстроить конвейер stt - перевод - tts, после чего скорректировать скорость итогового аудио, чтобы время звучания совпало с оригиналом, и склеить аудио с видео. Всё, что после этого останется сделать, так это склеить из кусочков целое видео.
Возможно, я что-то упускаю, и уже появились нейросети, сразу дающие или перевод речи в виде печатного текста или в виде речи на другом языке?
Возможно, я что-то упускаю, и уже появились нейросети, сразу дающие или перевод речи в виде печатного текста или в виде речи на другом языке?
Есть такие. Только результаты не очень.
Если платно - то у ElevenLabs есть сервис, который делает то что вам нужно end-to-end
Если самому мастерить локально:
Для ASR вам виспера хватит за глаза
Для TTS тоже есть нормальные локальные модели
Самая сложная часть - это перевод. Во-первых, придется делать инференс тяжелой модели; во-вторых, качество перевода будет плохое
Автоматический перевд - самая большая проблема!
Можно соорудить агента, который по размеченному диалогу с шага диаризации (текст разделен на блоки репликами и временными интервалами, помечен как диалог):
выправит разделение на блоки (все на этом экономят, очень важно починить то что сломано дешевыми алгоритмами до...) и связность диаризации (хотя бы не назначить несколько голосов одному реальному участнику)
затем пройдет по тексту для выявления особенностей контекста, критичных для языка, например имена и названия, пол участника для русского, к кому обращаются уровни вежливости, роли, живое/не живое и количества, стилистику типа юмор/официоз.. контекст вообще беда. Все это тысячекратно ломается при ошибках диаризации и неверной группировки текста. А еще при переводе фантастики можно споткнуться о смену контекста (игры со временем, смена пола, взросление и смена стиля и т.п.)
затем пройдет по тексту, давая черновой перевод с пометками по культурным и языковым особенностям (вот буквально в результате будет исходный текст, перевод, комментарии и так по всем абзацам)
и на последнем шаге агент должен пройтись по этой простыне и сделать из нее итоговый перевод.
p.s. в полуручном режиме что то я уже пробовал делать, это работает, и с современными моделями реально автоматизировать практически все.
Я работал с художественным текстом, и модели способны по содержимому разметить текст на участников и типы высказываний (внутренний диалог и внешний).
Небольшой оффтоп: есть какая-то специфика по содержанию этих видео? Например, хорошая методическая проработка или специализация по решаемым прикладным задачам? Для выбранной цели не окажется ли, что есть русскоязычные материалы, языковая доступность которых покрывает содержательное преимущество иноязычных? Или это собирается для личных целей исходя из личных хаотичных предпочтений.
В русскоязычные материалы всё это, конечно же, придёт, но может быть через несколько лет, а скорее всего - никогда-нибудь (особенно если ручеёк из англоязычного интернета иссякнет). Вот появился в блендере (в версии 2.8) классный инструмент grease pencil - видео по нему выходило и выходит максимум на десяти каналах на ютюбе, в печатном варианте году в 2020 вышла небольшая книга по той версии гризпенсила, её на русский не так давно перевели энтузиасты, а в пятом блендере уже новый гризпенсил, и с тех пор в самом блендере многое изменилось. Некоторые видео с упомянутых каналов так или иначе попали во всевозможные курсы на онлайн-платформах, и они порой бывают доступны в переводах благодаря пиратам и торрентам (и то, в последние года два-три торренты очень жёстко почистили от курсов, почти ничего там не осталось).
Примерно такая же история и с другими программами - по крите литературы и видео на русском ноль (на ютюбе - часовые и многочасовые курсы), по гимпу - все книги на русском относятся к версии 2.4-2.6, а это было 20 лет назад (на озоне купил книгу, датированную 2022, кажется, годом, так там внутри та же версия 2.4), сегодня на ютюбе куча видеокурсов длительностью по 1-4-10 часов уже по гимпу-3.0-3.1, по godot - есть пара книг на русском, но достать их проблематично, да и по третьей версии они, сейчас уже dthcbz 4.6 вышла, видео на русском - по большей части по третьей версии, четвёртая версия - практически всё на английском.
Да и потом, сами видите, что происходит с ютюбом... раньше зашёл на него, нашёл интересное видео, посмотрел в переводе или вообще - скормил ссылку загрузчику... Если бы можно было спокойно открыть браузер и смотреть в переводе яндекса нужное мне видео, я бы не стал городить такой огород с нейросетями, но, видимо, придётся...
Благодарю за детальный ответ. Я сам сейчас в поисках материалов для «юного дизайнера», причём русскоязычного. На ютубе полно разных видео, но их поди найди. Есть каталог уроков на ютубе, но он только по Inkscape. На других площадках разнообразие и качество уроков сильно уступает ютубу.
В целом, описанная Вами ситуация понятна.
P.S. если будут легко разворачиваемые локально сервисы, вроде описанных выше, станет легче.
Огромное спасибо за Ваш труд! Для языков - самое то!
Хотел посмотреть переводы с английского на русский, но ни одно видео не открылось. Выдаёт какую-то ошибку, вроде 503, и предлагает перейти на Ютубе, но переводит на общий ютубе.
Задумка интересная. Я глянул там и сям, как ИИ перевел "Ивана Васильевича". В целом неплохо получилось. Правда, местами перевод излишне буквальный и тем самым иногда искажающий смысл сказанного, а местами просто неправильный (к примеру, слово "нежно" почему-то переведено как "joyfully", т. е. "весело", "радостно"). При этом к русским субтитрам претензий нет, проблема не в них.
Если что, сам давным-давно переводил ("локализовал") всякие-разные компьютерные игры, то есть не совсем дилетант.
В защиту алгоритма про слово "нежно": оно встречается в песне; песни можно переводить очень вольно, в них важнее настроение
Вполне может быть. Еще пара вероятных объяснений:
Слово "joyfully" в каких-то стихотворениях легло в рифму, а потом параллельные тексты с этими стихами подвернулись ИИ-переводчику.
В каких-то параллельных текстах, на которых обучались ИИ, в оригинале и переводе попросту был разный порядок слов.
Нашел в переводе "Ивана Васильевича" пример излишнего буквализма. Таймкод 19:54.
Оригинал: "Что вы говорите?"
Перевод: "What are you saying?"
Увы, ИИ не смотрел фильм, а только "читал" русские субтитры, так что не мог уловить ехидную интонацию говорящего. В результате сарказм прошел мимо. Живой переводчик, посмотревший фильм (возможно, даже неоднократно), мог бы перевести это высказывание более идиоматично (например, "Oh really?").

Language Dove: как я транскрибирую и перевожу фильмы