Pull to refresh

Comments 8

А оно уже научилось хорошо распознавать людей на русском языке? Какое-то время назад русский слабо поддерживался.

Вчера только распознавал корпоративный трындеж в довольно плохом качетсве через whisper (whisper.cpp) large-v3. Работало удивительно хорошо, включая вкропления иностранных слов, нелогизмы и неидеальную дикцию.
И это на записи слушать которую самому откровенно больно -там к части людей приходилось прислушиваться чтобы хотябы примерно распознать о чем речь.

Да, на русском достаточно хорошо работает на модели large. Правда, как я уже писал, используется WhisperX — там свои доработки есть

Какое железо стоит для распознавания ? У меня для large модели скорость 1 к 1(

Сейчас на nvidia v100 работает large‑модель. Есть в планах поэксперементировать и запустить пайплайн транскрибации и диаризации на «дешёвом» CPU, чтобы мы смогли оставить доступ к боту открытым навсегда

Whisper medium на i9-11600 5 минут аудио распознает 2.5 минуты напрягая все ядра

Стандартная модель или порт на плюсы?

Стандартная. Она у меня в тестах показала большую скорость.

Sign up to leave a comment.

Articles