Комментарии 8
А оно уже научилось хорошо распознавать людей на русском языке? Какое-то время назад русский слабо поддерживался.
Вчера только распознавал корпоративный трындеж в довольно плохом качетсве через whisper (whisper.cpp) large-v3. Работало удивительно хорошо, включая вкропления иностранных слов, нелогизмы и неидеальную дикцию.
И это на записи слушать которую самому откровенно больно -там к части людей приходилось прислушиваться чтобы хотябы примерно распознать о чем речь.
Да, на русском достаточно хорошо работает на модели large. Правда, как я уже писал, используется WhisperX — там свои доработки есть
Какое железо стоит для распознавания ? У меня для large модели скорость 1 к 1(
Сейчас на nvidia v100 работает large‑модель. Есть в планах поэксперементировать и запустить пайплайн транскрибации и диаризации на «дешёвом» CPU, чтобы мы смогли оставить доступ к боту открытым навсегда
Максимизируем продуктивность: Создание ИИ-секретаря с Whisper и ChatGPT