Pull to refresh

Comments 22

Тот же, кто в сто лет как индексируемых текстовых файлах ищет.

Конечно, многое будет зависеть от того, насколько качественно реализована эта функция, как она справляется с различными форматами и насколько эффективно распознаёт речь и видеофрагменты.

простая python программа прямо сейчас это может сделать. в чем тут новизна?

1. создать файлы субтитров для всех видео файлов в заданной папке

  1. перевести если нужно субтитры на нужный вам язык

  2. текстовый поиск в текстовых файлах

простая python программа прямо сейчас это может сделать. в чем тут новизна?

В том, что эта простая программа будет по умолчанию ставиться на миллионы компьютеров. И запускаться не по осознанному запросу пользователя для заданных им файлов, а после нажатия кнопки "Я согласен" для всего, до чего дотянется.

(И остается только надеяться, что эта кнопка не является чисто декоративной, как кнопка переключения сигнала на некоторых пешеходных светофорах.)

Ну, наверное, новизна в том, что это будет не python а встроенная в стандартную строку поиска функция.

Создать субтитры по аудиодорожке?
Боюсь, уже на этом этапе будут большие сложности. А второй уже на столько может исказить оригинал, что поиск будет весьма затруднен. Да даже без внесения дополнительных искажений перевод может быть выполнен очень разными фразами. Переводчики художественной литературы, например, частенько принципиально подбирают другие формулировки для своего перевода ранее уже переведенного произведения.

Боюсь, уже на этом этапе будут большие сложности

Не сильно много. Встраиваем в службу Windows Search простую (в масштабах производственной мощности MS) программу, которая при совпадении расширения, контейнера, кодека, мета-тегов и начала файла, когда всё это в совокупности похоже на начало поддерживаемого видеофайла, начнёт читать аудиодорожки и транскрибировать их на нейрочипе с TOPS >45. Или просто индексирует субтитры, если есть.

Всё это, конечно, не вшивается в файл, а лежит в индексе.

Проблема лишь в оптимизации энергопотребления, но индексирование более-менее оптимизировано под это ещё со времён Десятки.

Да даже без внесения дополнительных искажений перевод может быть выполнен очень разными фразами

Можно отсылать метаданные с хэшами на сервера MS и удаленно в полу-ручном режиме с продвинутой нейронкой поставлять для этого контента нужное транскрибирование, Винда это подтянет и будет показывать при поиске исправленный вариант вместо своего, советского оффлайнового. Где взять контент по MD5? На торрент-трекерах они публикуют хэш-суммы, можно там...

На ютубе почему то не могут создать качественных субтитров в автоматическом режиме - полная ерунда. Пробовал я это делать с Whisper-ом, короче, без предварительной подготовки, например, чистки дорожки от фоновой музыки выходит очень плохо. Плохая дикция, жаргон, акцент, особенности говора - всё в минус. Параллельный разговор (привет, Роберт Олтман!) - на выходе каша.
Хороших автоматических переводчиков нет в принципе.

Англоязычный YT уже на "хорошо" справляется, остались только затыки по именам и числам. Не без проблем, тем более когда индусы филлипинцы-модераторы у Гугла творят свое кривосудие только по субтитрам, а там вдруг из-за плохого распознания ругательное слово образовалось (о, мои языческие Боги!).

В целом - это путь к полностью автоматизированному модерированию контента. ИИ распознает речь, ИИ задается вопрос: "если что-то эдакое, неправомерное у этого гражданина?", а дальше вам Computer says No и до свидания. И не дай Бог по распознанному тексту получится насилие над ребенком из-за того что дедушка поднялся на четвертый этаж, только что зашел и пыхтит одышкой, а ребенок визжит как в не себя, потому что собака носится вокруг.

Не, ну а что, вы верили, что никто не позарится на все эти петабайты данных, так удобно собранными вами самими?

Здравствуйте, мы тут у вас нашли всякие видео, которые находятся в списках экстремистских, пройдемте.

https://habr.com/ru/articles/44607/

Как стало известно, ФБР снова пыталось применить старый трюк с созданием фальшивой вакансии и приглашением в страну иностранного хакера якобы на переговоры о приёме на работу, после чего его тут же арестовывают.

UFO just landed and posted this here

Поможет найти среди всех дикпиков, наиболее подходящий для отправки

UFO just landed and posted this here

Ждёмс: "В Windows 11 появится возможность ускорения youtube" или "Windows 11 сможет использовать copilot для обхода блокировок". Tefal Copilot+ думает o за вас

Вспомнилась часть древнего перевода описания драйвера мыши под MSDOS.
" И помните! Фирма Майкрософт всегда думает о том, как лучше вас сделать!"

в сборке 27695, Windows 11 вскоре появится такая возможность.

Может, и не появится. Она сейчас только тестируется Windows Insiders. После Microsoft «Recall» может и не прокатит. Если только как необязательное улучшение по желанию пользователя.

Уже имеется такой сервис по поиску в видео:

https://habr.com/ru/news/795323/

https://inphrase.com/

Sign up to leave a comment.

Other news