Comments 15
Для сервиса распознавания коротких аудио это не проблема, но для длинных файлов скорость распознавания на 1 воркере примерно в 5x от риалтайма на 1 поток кажется чуть низкой (в идеале без капитализации на сихронном АПИ в 1 поток у нас 10x), но мы рано или поздно решим за кулисами и этот вопрос именно для длинных файлов.
Понятно, что нагрузкой легко управлять меняя число воркеров.
Можешь посмотреть, как HuggingFace решил эту проблему у себя. Качество в итоге чуть-чуть падает. Но зато можно не париться по поводу времени обработки https://huggingface.co/blog/asr-chunking
только онлайн?
Не сравнивал с моделями на базе facebook/wav2vec2-xls-r например https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-russian ?
Test WER на Common Voice = 9.820 без LM
Судя по картинкам они показывают результат выше, чем у тебя:

Для башкирского я смог получить 4.4 с LM. А для тайского вроде, вообще 0.95 получили. Очень дружелюбная моделька, единственное занимает много памяти.
Нет, не сравнивал.
Эти решения в любом случае не являются поддерживаемыми и продуктовыми. Даже если получится это как-то крутить с вменяемой скоростью (вероятно только на GPU), то кост поддержки и репликации таких решений не вписывается в разумные рамки (статьи пишут про 16, 32 или более видеокарт по типу A100 / V100).
Обычно такие тесты делают на базе модели, для репликации которой нужно огромное количество ресурсов, которая потом оверфитится на нескольких маленьких датасетах, чтобы показать хорошие метрики. И никто не делает OOD тесты.
На практике лучше вложить ресурсы в сбор и разметку данных. И в свете последних событий опираться на гигантские модели кажется не очень интересным.
Распознало от всего текста весьма выборочно, процентов 15-20, правильно — только отдельные слова.
Наши сервисы для бесплатного распознавания речи стали лучше и удобнее