Комментарии 8
... распознавание речи в видеоконтенте
Заинтриговал заголовок.
Ожидал, что видеоряд как-то используется при распознавании аудио, а в реальности перегонка mp3 в текст.
Невозможность whisper использовать аудио фрагменты, которые хранятся в памяти, а не файлом.
Сохранение во временный файл, мне кажется, вполне решение.
Кстати, этот комментарий надиктовал через самописное приложение распознавания речи на базе Whisper, хостимый на Groq.
То есть прекрасно работает для real-time text-to-speech.
Время преобразования русскоязычной речи в текст от 300 миллисекунд со средним временем ответа 0,7 секунды..
Стоимость на текущий момент 0 рублей 0 копеек и в дальнейшем будет стоить тоже копейки, если посмотреть на расценки в Groq.
А наоборот, speech-to-text, можете что-нибудь порекомендовать? Причём не просто speech из местного, достаточно качественного микрофона, а удалённый за тыщу км и поступающий по Скайпу или по тлф-линии, которая иногда достаточно сильно режет спектр. Нужно это для того, чтобы дать доступ к телефонной связи абсолютно глухому инвалиду и огромному количеству его собратьев по такой инвалидности.
В том, что задача разрешима, можно убедиться по функции "Прямая расшифровка", встроенной в смартфоны Google Pixel. Но во-первых, список поддерживаемых языков в этой опции не содержит русского, и во-вторых, даже если бы он там был - санкции...
Я уже задавал этот вопрос (вот тут), и каждый раз, когда я вижу статью по этой тематике, просыпается надежда, что сейчас наконец-то прочту о том, что решение этой проблемы найдено, или по крайней мере, находится в разработке. Но нет, люди занимаются чем-то другим...
А наоборот, speech-to-text, можете что-нибудь порекомендовать?
Я как раз и писал про Speech-to-Text.
Whisper для распознавания речи и перегонки в текст.
Я сейчас этот ответ надиктовываю вам через Whisper, который хостится на сайте Groq.
Написал простое приложение на питоне, которое по горячей кнопке распознаёт русскую и английскую речь и переводит в текст.
По отжатии горячей кнопки среднее время получения текста 0,7 секунды.
Также добавил возможность сделать перевод текста из русского в английский и из английского в русский.
То есть говорите на русском языке, а результат выдается на английском.
Вот этот текст я наговорил на русском языке.
I also spoke this text in Russian, but it was automatically translated into English.
Ну, не знаю... Я ведь как прочитал, так и понял. У вас написано
прекрасно работает для real-time text-to-speech.
а вовсе не Speech-to-Text. Но если там действительно Speech-to-Text, то может быть, дадите ссылочку на что-то реально работающее?
Да, в первом комментарии моя ошибка.
Я имел в виду не text-to-speech, а speech-to-text.
Да, скину линк на свой git-репозиторий. В нем speech-to-text Python application и скомпилированный экзешник на 14 мегабайт, где этот же питоновский код переведен в executable.
В этом же репозитории powershell файл для конвертации питоновского кода в экзешник.
Напишите пожалуйста в личку, я скину линк.
у одного из whisperoв была возможность перегонять real-time речь в текст с микрофона. это может быть решением создания временных файлов.
также можно whisperов в докер-образы "настрогать" и туда аудио-chunkи отправлять, если локально whisper не дает распараллелиться.
От звука к смыслу: распознавание речи в видеоконтенте