ggospodinov Apr 8 at 09:50

GigaAM: класс открытых моделей для обработки звучащей речи

Medium

10 min

SberDevices corporate blogOpen source*Machine learning*Artificial Intelligence

+30

Comments 18

entze Apr 8 at 10:00

Что насчет диаризации? Разделение по голосам позволит транскрибировать записи встреч и подкасты.

Lagovi Apr 8 at 16:27

Она описана в API, в демке под вин почему то не стали реализовывать.

ggospodinov Apr 9 at 16:46

В настоящий момент в SaluteSpeech API доступна опция разделения дикторов: SpeakerSeparationOptions

Ранее мы писали техническую статью с деталями реализации и примерами возможностей этой технологии: Как мы сделали распознавание речи нескольких говорящих

Запрос на диаризацию увидели, спасибо :)

snakers4 Apr 8 at 11:25

В том числе датасеты OpenSTT, которые не участвовали в обучении.

Тут ведь используются как-то дополнительно почищенные валидационные датасеты? Можете на них тоже приложить ссылку?

ggospodinov Apr 8 at 16:06

Мы использовали минимальную подготовку данных: понижение регистра, замена ё на е. Применяли такие преобразования, поскольку предлагаемая нами модель и NeMo Conformer транскрибируют речь с таким словарем символов

nkarpov Apr 8 at 13:45

круто, а облейшн претрейн моделей какой делали: MLM, Contrastive, MLM+Contrastive ?

ggospodinov Apr 8 at 16:33

Спасибо!

Для данной статьи ablation study не проводили. Предобучали энкодер в wav2vec2 режиме, поскольку имеем большой опыт стабилизации обучения с этим подходом

В настоящий момент экспериментируем с Predictive-подходами. Планируем скоро поделиться результатами :)

Lagovi Apr 8 at 16:29

Подскажите, у вас в SaluteSpeech App и в Telegram боте одна модель подключена? Как-то мне показалось что качество отличается.

ggospodinov Apr 9 at 16:25

На данный момент модели действительно отличаются. Стоит использовать ту, которая лучше решает ваши задачи

Lagovi Apr 9 at 16:52

Так при доступе через API вы разве выбор даете?

ggospodinov Apr 9 at 17:01

Имел в виду, что пользоваться либо telegram-ботом, либо desktop-приложением / API

Модель из бота сейчас доступна только в боте

Ваш запрос увидели, спасибо!

echo0x00 Apr 8 at 22:08

Круто!

mbrdancer Apr 11 at 21:07

GigaAM-CTC уже выкатили на SaluteSpeech API? Вернее, уточню вопрос: повысилось ли качество распознавания в SaluteSpeech API по сравнению с началом этого года?

Активно использую расшифровку аудиозаписей: лекции, семинары, совещания, встречи. Раньше пользовался SaluteSpeech API. Сейчас перешел на модели от OpenAI. Использую Whisper‑large‑v3. В среднем за месяц расшифровке подвергаю порядка 36ч записей, так что дальше буду говорить о сравнении не на пустом месте.

пожалуйста начните честно упоминать о том, что использование распознавания голоса через SaluteSpeech API - не бесплатное. Эти жалкие 100 бесплатных минут распознавания в месяц для физлиц - ни о чем. А дальше приходится платить за то, чтобы расшифровывать текст с аудиозаписей. И это не две копейки (хотя честно упомяну, нельзя сказать, что прям неприлично дорого). Ну или приходится ждать следующего месяца для возобновления бесплатного использования, снова на 100 минут аудио...
По субъективным ощущениям модель, функционировавшая до недавнего времени по SaluteSpeech API была по качеству перевода из голоса в текст наааамного, ну просто драматически хуже, чем Whisper‑large‑v3. При этом "плюшки" типа встроенной диаризации спикеров или порождения нескольких вариантов расшифровки все равно или нормально не работают или не имеют вменяемого сценария использования, поэтому плюшками не считаю.
Работа с ограниченным составом форматов аудио, да еще не с любым вариантом какого-нибудь ogg vorbis, который, скажем, не в тот контейнер запакован, - это тоже не привлекает к использованию решений под SaluteSpeech API. Я в свое время потратил не один день на то, чтобы разобраться, какой формат аудио "можно" скормить в Сбер, а на каком он молча сломается и будет в цикле пытаться распознать. А я буду сидеть ждать на своем конце API, пока там статус задачи изменится... На этом фоне в библиотеку whisper просто встроено требование (или автоматическая установка) ffmpeg, который под капотом просто конвертирует аудио в нужный формат.

Так вот, Whisper‑large‑v3, все другие модели семейства whisper - полностью бесплатны. Их можно легко поднять на своем железе, для чего существует отдельная бесплатная open-source библиотека, которую может использовать любой начинающий. И в результате эту модель можно гонять на любом объеме записей, лишь бы позволяло время. Модели Сбера бесплатны очень-очень условно (см. п.1). При условии катастрофического отставания по качеству не понимаю, почему мне следует их выбирать.

Я всеми силами приветствую развитие российских нейросетей, болею за наш прогресс в этом направлении всей душой! Но, елки-палки, почему же это должно происходить так неконкурентно дорого и одновременно некачественно по сравнению с существующими альтернативами?! Может, раз уж у нас похуже работает (а переубедить меня в этом будет оооочень сложно!), сделать истинно открыто, по-настоящему бесплатно? Собрать нормальный опыт и обратную связь, хорошенько проработать ошибки, добиться лучшего решения на русском языке - и только тогда продавать? Причем, не модель и вычисления, а сервис и адаптацию? Кажется, это более емкий подход в смысле потенциального достижения технологического превосходства на основе пользовательского опыта, чем прямые продажи "здесь-и-сейчас" в условиях отсутствия конкурентных преимуществ.

Примечание: понимаю, что основной фон критики в этом комменте - субъективно оцениваемое отставание одной модели по отношению к другой в то время, как по бенчмаркам вроде бы это не так. Предложу в этом месте задуматься, что важно мне как пользователю - цифра модели на бенчмарке или время, потраченное на корректировку расшифровки (или наоборот, как сейчас при использовании моделей OpenAI, не потраченное).

SemyonVyatskov Apr 16 at 10:39

>почему же это должно происходить так неконкурентно дорого и одновременно некачественно по сравнению с существующими альтернативами

Вы можете представить мир, в котором люди что-то делают не ради сиюминутных гор прибыли или выдающихся результатов по всем фронтам? Я понимаю, что вам хочется поделиться вашей собственной деятельностью с людьми, но совершенно необязательно выставлять причину как критику, тем более, если она такая бестолковая. Деньги считать все умеют, представьте себе.

mbrdancer Apr 17 at 15:43

Да, я знаю области или виды деятельности, в которых люди делают что-то не ради сиюминутных гор прибыли. Я не говорю о том, что нужно пилить свой ChatGPT pro bono. Я о том, что есть альтернатива тому, чтобы выкатить неконкурентное за деньги - выкатить неконкурентное с предложением вместе отловить ошибки, найти способ повысить качество, поработать над ошибками. Иногда за такое контрибьюторов даже вознаграждают. Вопрос только в желании выбрать - "срубить бабла" или таки доделать до хорошего и продвинуть классную нейросеть.

Бестолковость критики - понятие субъективное понятие до тех пор, пока не приведены конкретные резоны. В моем-то случае критика обоснована. Я же специально во введении описал контекст - чтобы было понятно, что излагаю не на пустом месте.

Деньги считать все умеют, представьте себе.

Вот тут смысла претензии не понял, если честно.

HiElias Apr 12 at 15:40

Спасибо за OpenSource!
Какое распределение доменов было в псевдоразметке?
Правильно ли понимаю, что звонки были только в псевдоразметке?

yusinv Apr 16 at 11:14

сделал wyoming сервер для home assistant, на моем synology nas работает достаточно шустро https://github.com/yusinv/wyoming-giga-am-ctc

Artem_36 Apr 28 at 08:02

GigaAM-CTC по сравнению с Whisper large-v3, почему-то неоправданно много потребляет RAM и VRAM. Для 8,5 минутной аудиозаписи занял всю видео память (20Gb) + 64 Gb RAM. Запускал в WSL локально. Также Whisper ставит все знаки препинания, цифры пишет цифрами, имена, названия и т.п. пишет с большой буквы. Здесь этого совсем нет.