neoflex 15 окт 2024 в 08:03

От звука к смыслу: распознавание речи в видеоконтенте

Простой

5 мин

5.4K

Блог компании NeoflexPython*Машинное обучение*Работа с видео*

Туториал

+17

Комментарии 8

vagon333 15 окт 2024 в 12:46

... распознавание речи в видеоконтенте

Заинтриговал заголовок.
Ожидал, что видеоряд как-то используется при распознавании аудио, а в реальности перегонка mp3 в текст.

Невозможность whisper использовать аудио фрагменты, которые хранятся в памяти, а не файлом.

Сохранение во временный файл, мне кажется, вполне решение.

Кстати, этот комментарий надиктовал через самописное приложение распознавания речи на базе Whisper, хостимый на Groq.
То есть прекрасно работает для real-time text-to-speech.
Время преобразования русскоязычной речи в текст от 300 миллисекунд со средним временем ответа 0,7 секунды..
Стоимость на текущий момент 0 рублей 0 копеек и в дальнейшем будет стоить тоже копейки, если посмотреть на расценки в Groq.

nehrung 15 окт 2024 в 18:59

А наоборот, speech-to-text, можете что-нибудь порекомендовать? Причём не просто speech из местного, достаточно качественного микрофона, а удалённый за тыщу км и поступающий по Скайпу или по тлф-линии, которая иногда достаточно сильно режет спектр. Нужно это для того, чтобы дать доступ к телефонной связи абсолютно глухому инвалиду и огромному количеству его собратьев по такой инвалидности.

В том, что задача разрешима, можно убедиться по функции "Прямая расшифровка", встроенной в смартфоны Google Pixel. Но во-первых, список поддерживаемых языков в этой опции не содержит русского, и во-вторых, даже если бы он там был - санкции...

Я уже задавал этот вопрос (вот тут), и каждый раз, когда я вижу статью по этой тематике, просыпается надежда, что сейчас наконец-то прочту о том, что решение этой проблемы найдено, или по крайней мере, находится в разработке. Но нет, люди занимаются чем-то другим...

vagon333 15 окт 2024 в 19:14

А наоборот, speech-to-text, можете что-нибудь порекомендовать?

Я как раз и писал про Speech-to-Text.

Whisper для распознавания речи и перегонки в текст.
Я сейчас этот ответ надиктовываю вам через Whisper, который хостится на сайте Groq.
Написал простое приложение на питоне, которое по горячей кнопке распознаёт русскую и английскую речь и переводит в текст.
По отжатии горячей кнопки среднее время получения текста 0,7 секунды.

Также добавил возможность сделать перевод текста из русского в английский и из английского в русский.
То есть говорите на русском языке, а результат выдается на английском.

Вот этот текст я наговорил на русском языке.
I also spoke this text in Russian, but it was automatically translated into English.

nehrung 15 окт 2024 в 20:51

Ну, не знаю... Я ведь как прочитал, так и понял. У вас написано

прекрасно работает для real-time text-to-speech.

а вовсе не Speech-to-Text. Но если там действительно Speech-to-Text, то может быть, дадите ссылочку на что-то реально работающее?

vagon333 15 окт 2024 в 21:04

Да, в первом комментарии моя ошибка.
Я имел в виду не text-to-speech, а speech-to-text.

Да, скину линк на свой git-репозиторий. В нем speech-to-text Python application и скомпилированный экзешник на 14 мегабайт, где этот же питоновский код переведен в executable.
В этом же репозитории powershell файл для конвертации питоновского кода в экзешник.

Напишите пожалуйста в личку, я скину линк.

zoldaten 17 окт 2024 в 13:02

@nehrung vosk попробуйте. а также base,learge модели whisper русским владеют.

kaza404ek 21 окт 2024 в 05:45

модели whisper хорошо работают с хорошим звуком, при шумах (в моих случаях - всегда) - полностью пропадает пунктуация, намного хуже разбирает слова

zoldaten 17 окт 2024 в 13:08

у одного из whisperoв была возможность перегонять real-time речь в текст с микрофона. это может быть решением создания временных файлов.
также можно whisperов в докер-образы "настрогать" и туда аудио-chunkи отправлять, если локально whisper не дает распараллелиться.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий