Как стать автором
Обновить
9
3
Георгий Господинов @ggospodinov

Пользователь

Отправить сообщение

В данный момент нет, но скоро добавим
Следите за обновлениями в канале

GigaChat Max Audio поддерживает контекст 128 тысяч токенов, из которых 65 тысяч могут быть модальностями (аудиозаписи, изображения). 65 тысяч аудио токенов соответствуют примерно 170 минутам звука.

Пока это ограничение нашего инференс-сервера, сама модель способна обрабатывать и 3+ часа звука. Мы планируем расширить лимит в ближайших обновлениях.

Касательно галлюцинаций я бы сказал, что не часто, но, конечно, есть над чем работать. Основными проблемами были:

  • смещение в сторону задачи распознавания речи — вместо ответа на запрос пользователя, модель просто повторяла его.

  • странное поведение на пустых / коротких аудиозаписях — например, модель могла вызвать функцию рисования.

Обе эти проблемы мы решали обучающими данными на этапе Audio SFT.

Модели GigaAM не стоит применять к длинным записям как есть, поскольку:

  • возможны out-of-memory ошибки из-за аллокации больших тензоров

  • предобучение и дообучение происходило на записях длительностью до 30 секунд, на длинных записях возможна деградация качества из-за сдвига распределения

Для обработки длинных аудиозаписей мы добавили пример распознавания с использованием Voice-Activity-Detection модели:

Также мы подготовили модель GigaAM-RNNT, Word Error Rate которой в среднем на 20% ниже относительно GigaAM-CTC:

| model                        | parameters | Golos Crowd | Golos Farfield | OpenSTT Youtube | OpenSTT Phone calls | OpenSTT Audiobooks | Mozilla Common Voice | Russian LibriSpeech |
|------------------------------|------------|-------------|----------------|-----------------|---------------------|--------------------|----------------------|---------------------|
| Whisper-large-v3             | 1.5B       | 17.4        | 14.5           | 21.1            | 31.2                | 17.0               | 5.3                  | 9.0                 |
| NVIDIA Ru-FastConformer-RNNT | 115M       | 2.6         | 6.6            | 23.8            | 32.9                | 16.4               | 2.7                  | 11.6                |
| GigaAM-CTC                   | 242M       | 3.1         | 5.7            | 18.4            | 25.6                | 15.1               | 1.7                  | 8.1                 |
| GigaAM-RNNT                  | 243M       | 2.3         | 4.4            | 16.7            | 22.9                | 13.9               | 0.9                  | 7.4                 |

Сравнили потребление памяти, скорость и качество распознавания на длинных аудиозаписях на датасете Russian LibriSpeech (аудиокниги):

| model                   | ↓ WER, % | ↓ GPU Memory, Gb | ↓ Real-time factor | Batch Size |
|-------------------------|----------|------------------|--------------------|------------|
| Whisper-large-v3        | 10       | 12               | 0.167              | 1          |
| Faster-Whisper-large-v3 | 10       | 4                | 0.040              | 1          |
| GigaAM-RNNT             | 7.3      | 3                | 0.004              | 10         |

Видно, что Word Error Rate модели GigaAM-RNNT на 27% ниже, скорость распознавания выше, потребление памяти ниже

Сейчас наши модели распознавания действительно предсказывают текст без знаков препинания и в нижнем регистре. Рассмотрим добавление этих компонент в следующих релизах, спасибо!

Имел в виду, что пользоваться либо telegram-ботом, либо desktop-приложением / API

Модель из бота сейчас доступна только в боте

Ваш запрос увидели, спасибо!

В настоящий момент в SaluteSpeech API доступна опция разделения дикторов: SpeakerSeparationOptions

Ранее мы писали техническую статью с деталями реализации и примерами возможностей этой технологии: Как мы сделали распознавание речи нескольких говорящих

Запрос на диаризацию увидели, спасибо :)

На данный момент модели действительно отличаются. Стоит использовать ту, которая лучше решает ваши задачи

Спасибо!

Для данной статьи ablation study не проводили. Предобучали энкодер в wav2vec2 режиме, поскольку имеем большой опыт стабилизации обучения с этим подходом

В настоящий момент экспериментируем с Predictive-подходами. Планируем скоро поделиться результатами :)

Мы использовали минимальную подготовку данных: понижение регистра, замена ё на е. Применяли такие преобразования, поскольку предлагаемая нами модель и NeMo Conformer транскрибируют речь с таким словарем символов

Информация

В рейтинге
1 156-й
Зарегистрирован
Активность