Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:
- Английский;
- Немецкий;
- Испанский;
Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.
PyTorch | ONNX | TensorFlow | Качество | Colab | |
---|---|---|---|---|---|
Английский (en_v1) | ✓ | ✓ | ✓ | ссылка | |
Немецкий (de_v1) | ✓ | ✓ | ✓ | ссылка | |
Испанский (es_v1) | ✓ | ✓ | ✓ | ссылка |
Почему это Важно
Распознавание речи традиционно имело высокие барьеры на вход по ряду причин:
- Данные сложно собирать;
- Разметка на сравнимую единицу данных стоит сильно дороже чем в компьютерном зрении;
- Высокие требования по вычислительной мощности и устаревшие технологии;
Вот перечень типовых проблем, с которыми сталкивались существующие решения для распознавания речи до нашего релиза:
- Исследования в этой сфере обычно делаются на огромных вычислительных мощностях;
- Пре-тренированные модели и готовые рецепты обычно имеют сильные проблемы с генерализацией, их тяжело использовать "как есть", много зависимостей от устаревших технологий;
- До недавнего времени сообщество не имело доступа к простым в использовании, но качественным пре-тренированным моделям для распознавания речи;
Для начала мы попробовали решить какие-то из этих проблем, опубликовав самый большой в мире речевой корпус для русского языка (смотрите наш пост на Хабре тут). В этот раз мы делаем свой вклад в решение этих проблем следующим образом:
- Мы публикуем набор высококачественных пре-тренированных моделей для популярных языков;
- Наши модели быстрые и могут работать на обычном железе;
- Наши модели легко использовать;
- Наши модели пре-тренированы на огромных и разнообразных речевых корпусах;
- Мы строили наши модели так, чтобы они были устойчивы к разным доменам, насколько это возможно;
Сделать Просто — Сложно
Нам кажется, что современные технологии должны быть безумно простыми в использовании. В нашей работе мы следуем следующим принципам:
- Скорость и компактность;
- Генерализация между разными доменами. Должно существовать одно общее решение, которое незначительными усилиями настраивается на конкретные домены, а не наоборот;
- Максимальная простота в использовании ("1 строка кода");
Дальнейшие Планы
Сейчас наименьший размер, до которого мы смогли ужать наши модели — в районе 50 мегабайт.
В среднесрочной перспективе — планка сжатия до 10-20 мегабайт без потери качества кажется нам выполнимой.
Также мы планируем добавлять другие популярные языки.