Search
Write a publication
Pull to refresh

Comments 15

Для сервиса распознавания коротких аудио это не проблема, но для длинных файлов скорость распознавания на 1 воркере примерно в 5x от риалтайма на 1 поток кажется чуть низкой (в идеале без капитализации на сихронном АПИ в 1 поток у нас 10x), но мы рано или поздно решим за кулисами и этот вопрос именно для длинных файлов.


Понятно, что нагрузкой легко управлять меняя число воркеров.

Можешь посмотреть, как HuggingFace решил эту проблему у себя. Качество в итоге чуть-чуть падает. Но зато можно не париться по поводу времени обработки https://huggingface.co/blog/asr-chunking

офлайн решений не предполагаете? на уровне библиотек

Не сравнивал с моделями на базе facebook/wav2vec2-xls-r например https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-russian ?

Test WER на Common Voice = 9.820 без LM

Судя по картинкам они показывают результат выше, чем у тебя:

Для башкирского я смог получить 4.4 с LM. А для тайского вроде, вообще 0.95 получили. Очень дружелюбная моделька, единственное занимает много памяти.

Нет, не сравнивал.

Эти решения в любом случае не являются поддерживаемыми и продуктовыми. Даже если получится это как-то крутить с вменяемой скоростью (вероятно только на GPU), то кост поддержки и репликации таких решений не вписывается в разумные рамки (статьи пишут про 16, 32 или более видеокарт по типу A100 / V100).

Обычно такие тесты делают на базе модели, для репликации которой нужно огромное количество ресурсов, которая потом оверфитится на нескольких маленьких датасетах, чтобы показать хорошие метрики. И никто не делает OOD тесты.

На практике лучше вложить ресурсы в сбор и разметку данных. И в свете последних событий опираться на гигантские модели кажется не очень интересным.

Запускаю на CPU. Скорость распознавания x2. Но моя модель натренирована на базе маленькой модели. Занимает 1.12Gb

Наши маленькие продовые модели для CPU… имеют скорость от x30 до x50.
Понятно, что в реальной жизни на это много чего накладывается, но тем не менее.

Стало интересно опробовать сервис на музыкальной композиции, песне, то есть.
Распознало от всего текста весьма выборочно, процентов 15-20, правильно — только отдельные слова.
с зачитанными стихотворениями гораздо лучше, всего две ошибки в самих словах, но расстановка знаков препинания и разбиение на предложения сильно плывёт.

Кстати не проводил эксперименты именно с датасетом песен?

Не совсем понятно практическое применение

Sign up to leave a comment.

Articles