Как стать автором
Обновить

Комментарии 8

... распознавание речи в видеоконтенте

Заинтриговал заголовок.
Ожидал, что видеоряд как-то используется при распознавании аудио, а в реальности перегонка mp3 в текст.

Невозможность whisper использовать аудио фрагменты, которые хранятся в памяти, а не файлом.

Сохранение во временный файл, мне кажется, вполне решение.

Кстати, этот комментарий надиктовал через самописное приложение распознавания речи на базе Whisper, хостимый на Groq.
То есть прекрасно работает для real-time text-to-speech.
Время преобразования русскоязычной речи в текст от 300 миллисекунд со средним временем ответа 0,7 секунды..
Стоимость на текущий момент 0 рублей 0 копеек и в дальнейшем будет стоить тоже копейки, если посмотреть на расценки в Groq.

А наоборот, speech-to-text, можете что-нибудь порекомендовать? Причём не просто speech из местного, достаточно качественного микрофона, а удалённый за тыщу км и поступающий по Скайпу или по тлф-линии, которая иногда достаточно сильно режет спектр. Нужно это для того, чтобы дать доступ к телефонной связи абсолютно глухому инвалиду и огромному количеству его собратьев по такой инвалидности.

В том, что задача разрешима, можно убедиться по функции "Прямая расшифровка", встроенной в смартфоны Google Pixel. Но во-первых, список поддерживаемых языков в этой опции не содержит русского, и во-вторых, даже если бы он там был - санкции...

Я уже задавал этот вопрос (вот тут), и каждый раз, когда я вижу статью по этой тематике, просыпается надежда, что сейчас наконец-то прочту о том, что решение этой проблемы найдено, или по крайней мере, находится в разработке. Но нет, люди занимаются чем-то другим...

А наоборот, speech-to-text, можете что-нибудь порекомендовать?

Я как раз и писал про Speech-to-Text.

Whisper для распознавания речи и перегонки в текст.
Я сейчас этот ответ надиктовываю вам через Whisper, который хостится на сайте Groq.
Написал простое приложение на питоне, которое по горячей кнопке распознаёт русскую и английскую речь и переводит в текст.
По отжатии горячей кнопки среднее время получения текста 0,7 секунды.

Также добавил возможность сделать перевод текста из русского в английский и из английского в русский.
То есть говорите на русском языке, а результат выдается на английском.

Вот этот текст я наговорил на русском языке.
I also spoke this text in Russian, but it was automatically translated into English.

Ну, не знаю... Я ведь как прочитал, так и понял. У вас написано

прекрасно работает для real-time text-to-speech.

а вовсе не Speech-to-Text. Но если там действительно Speech-to-Text, то может быть, дадите ссылочку на что-то реально работающее?

Да, в первом комментарии моя ошибка.
Я имел в виду не text-to-speech, а speech-to-text.

Да, скину линк на свой git-репозиторий. В нем speech-to-text Python application и скомпилированный экзешник на 14 мегабайт, где этот же питоновский код переведен в executable.
В этом же репозитории powershell файл для конвертации питоновского кода в экзешник.

Напишите пожалуйста в личку, я скину линк.

модели whisper хорошо работают с хорошим звуком, при шумах (в моих случаях - всегда) - полностью пропадает пунктуация, намного хуже разбирает слова

у одного из whisperoв была возможность перегонять real-time речь в текст с микрофона. это может быть решением создания временных файлов.
также можно whisperов в докер-образы "настрогать" и туда аудио-chunkи отправлять, если локально whisper не дает распараллелиться.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий