Комментарии / Профиль ggospodinov / Хабр

Георгий Господинов @ggospodinov

Пользователь

ПрофильСтатьи2ПостыНовостиКомментарии8

Как мы научили GigaChat слышать: погружение в аудиомодальность

ggospodinov 30 апр в 15:02

В данный момент нет, но скоро добавим
Следите за обновлениями в канале

Посмотреть

Как мы научили GigaChat слышать: погружение в аудиомодальность

ggospodinov 30 апр в 14:40

GigaChat Max Audio поддерживает контекст 128 тысяч токенов, из которых 65 тысяч могут быть модальностями (аудиозаписи, изображения). 65 тысяч аудио токенов соответствуют примерно 170 минутам звука.

Пока это ограничение нашего инференс-сервера, сама модель способна обрабатывать и 3+ часа звука. Мы планируем расширить лимит в ближайших обновлениях.

Касательно галлюцинаций я бы сказал, что не часто, но, конечно, есть над чем работать. Основными проблемами были:

смещение в сторону задачи распознавания речи — вместо ответа на запрос пользователя, модель просто повторяла его.
странное поведение на пустых / коротких аудиозаписях — например, модель могла вызвать функцию рисования.

Обе эти проблемы мы решали обучающими данными на этапе Audio SFT.

Посмотреть

GigaAM: класс открытых моделей для обработки звучащей речи

ggospodinov 11 июн 2024 в 12:15

Модели GigaAM не стоит применять к длинным записям как есть, поскольку:

возможны out-of-memory ошибки из-за аллокации больших тензоров
предобучение и дообучение происходило на записях длительностью до 30 секунд, на длинных записях возможна деградация качества из-за сдвига распределения

Для обработки длинных аудиозаписей мы добавили пример распознавания с использованием Voice-Activity-Detection модели:

Также мы подготовили модель GigaAM-RNNT, Word Error Rate которой в среднем на 20% ниже относительно GigaAM-CTC:

| model                        | parameters | Golos Crowd | Golos Farfield | OpenSTT Youtube | OpenSTT Phone calls | OpenSTT Audiobooks | Mozilla Common Voice | Russian LibriSpeech |
|------------------------------|------------|-------------|----------------|-----------------|---------------------|--------------------|----------------------|---------------------|
| Whisper-large-v3             | 1.5B       | 17.4        | 14.5           | 21.1            | 31.2                | 17.0               | 5.3                  | 9.0                 |
| NVIDIA Ru-FastConformer-RNNT | 115M       | 2.6         | 6.6            | 23.8            | 32.9                | 16.4               | 2.7                  | 11.6                |
| GigaAM-CTC                   | 242M       | 3.1         | 5.7            | 18.4            | 25.6                | 15.1               | 1.7                  | 8.1                 |
| GigaAM-RNNT                  | 243M       | 2.3         | 4.4            | 16.7            | 22.9                | 13.9               | 0.9                  | 7.4                 |

Сравнили потребление памяти, скорость и качество распознавания на длинных аудиозаписях на датасете Russian LibriSpeech (аудиокниги):

| model                   | ↓ WER, % | ↓ GPU Memory, Gb | ↓ Real-time factor | Batch Size |
|-------------------------|----------|------------------|--------------------|------------|
| Whisper-large-v3        | 10       | 12               | 0.167              | 1          |
| Faster-Whisper-large-v3 | 10       | 4                | 0.040              | 1          |
| GigaAM-RNNT             | 7.3      | 3                | 0.004              | 10         |

Видно, что Word Error Rate модели GigaAM-RNNT на 27% ниже, скорость распознавания выше, потребление памяти ниже

Сейчас наши модели распознавания действительно предсказывают текст без знаков препинания и в нижнем регистре. Рассмотрим добавление этих компонент в следующих релизах, спасибо!

Посмотреть

GigaAM: класс открытых моделей для обработки звучащей речи

ggospodinov 9 апр 2024 в 17:01

Имел в виду, что пользоваться либо telegram-ботом, либо desktop-приложением / API

Модель из бота сейчас доступна только в боте

Ваш запрос увидели, спасибо!

Посмотреть

GigaAM: класс открытых моделей для обработки звучащей речи

ggospodinov 9 апр 2024 в 16:46

В настоящий момент в SaluteSpeech API доступна опция разделения дикторов: SpeakerSeparationOptions

Ранее мы писали техническую статью с деталями реализации и примерами возможностей этой технологии: Как мы сделали распознавание речи нескольких говорящих

Запрос на диаризацию увидели, спасибо :)

Посмотреть

GigaAM: класс открытых моделей для обработки звучащей речи

ggospodinov 9 апр 2024 в 16:25

На данный момент модели действительно отличаются. Стоит использовать ту, которая лучше решает ваши задачи

Посмотреть

GigaAM: класс открытых моделей для обработки звучащей речи

ggospodinov 8 апр 2024 в 16:33

Спасибо!

Для данной статьи ablation study не проводили. Предобучали энкодер в wav2vec2 режиме, поскольку имеем большой опыт стабилизации обучения с этим подходом

В настоящий момент экспериментируем с Predictive-подходами. Планируем скоро поделиться результатами :)

Посмотреть

GigaAM: класс открытых моделей для обработки звучащей речи

ggospodinov 8 апр 2024 в 16:06

Мы использовали минимальную подготовку данных: понижение регистра, замена ё на е. Применяли такие преобразования, поскольку предлагаемая нами модель и NeMo Conformer транскрибируют речь с таким словарем символов

Посмотреть