Pull to refresh

Comments 18

Что насчет диаризации? Разделение по голосам позволит транскрибировать записи встреч и подкасты.

Она описана в API, в демке под вин почему то не стали реализовывать.

В настоящий момент в SaluteSpeech API доступна опция разделения дикторов: SpeakerSeparationOptions

Ранее мы писали техническую статью с деталями реализации и примерами возможностей этой технологии: Как мы сделали распознавание речи нескольких говорящих

Запрос на диаризацию увидели, спасибо :)

В том числе датасеты OpenSTT, которые не участвовали в обучении.

Тут ведь используются как-то дополнительно почищенные валидационные датасеты? Можете на них тоже приложить ссылку?

Мы использовали минимальную подготовку данных: понижение регистра, замена ё на е. Применяли такие преобразования, поскольку предлагаемая нами модель и NeMo Conformer транскрибируют речь с таким словарем символов

круто, а облейшн претрейн моделей какой делали: MLM, Contrastive, MLM+Contrastive ?

Спасибо!

Для данной статьи ablation study не проводили. Предобучали энкодер в wav2vec2 режиме, поскольку имеем большой опыт стабилизации обучения с этим подходом

В настоящий момент экспериментируем с Predictive-подходами. Планируем скоро поделиться результатами :)

Подскажите, у вас в SaluteSpeech App и в Telegram боте одна модель подключена? Как-то мне показалось что качество отличается.

На данный момент модели действительно отличаются. Стоит использовать ту, которая лучше решает ваши задачи

Так при доступе через API вы разве выбор даете?

GigaAM-CTC уже выкатили на SaluteSpeech API? Вернее, уточню вопрос: повысилось ли качество распознавания в SaluteSpeech API по сравнению с началом этого года?

Активно использую расшифровку аудиозаписей: лекции, семинары, совещания, встречи. Раньше пользовался SaluteSpeech API. Сейчас перешел на модели от OpenAI. Использую Whisper‑large‑v3. В среднем за месяц расшифровке подвергаю порядка 36ч записей, так что дальше буду говорить о сравнении не на пустом месте.

  1. пожалуйста начните честно упоминать о том, что использование распознавания голоса через SaluteSpeech API - не бесплатное. Эти жалкие 100 бесплатных минут распознавания в месяц для физлиц - ни о чем. А дальше приходится платить за то, чтобы расшифровывать текст с аудиозаписей. И это не две копейки (хотя честно упомяну, нельзя сказать, что прям неприлично дорого). Ну или приходится ждать следующего месяца для возобновления бесплатного использования, снова на 100 минут аудио...

  2. По субъективным ощущениям модель, функционировавшая до недавнего времени по SaluteSpeech API была по качеству перевода из голоса в текст наааамного, ну просто драматически хуже, чем Whisper‑large‑v3. При этом "плюшки" типа встроенной диаризации спикеров или порождения нескольких вариантов расшифровки все равно или нормально не работают или не имеют вменяемого сценария использования, поэтому плюшками не считаю.

  3. Работа с ограниченным составом форматов аудио, да еще не с любым вариантом какого-нибудь ogg vorbis, который, скажем, не в тот контейнер запакован, - это тоже не привлекает к использованию решений под SaluteSpeech API. Я в свое время потратил не один день на то, чтобы разобраться, какой формат аудио "можно" скормить в Сбер, а на каком он молча сломается и будет в цикле пытаться распознать. А я буду сидеть ждать на своем конце API, пока там статус задачи изменится... На этом фоне в библиотеку whisper просто встроено требование (или автоматическая установка) ffmpeg, который под капотом просто конвертирует аудио в нужный формат.

Так вот, Whisper‑large‑v3, все другие модели семейства whisper - полностью бесплатны. Их можно легко поднять на своем железе, для чего существует отдельная бесплатная open-source библиотека, которую может использовать любой начинающий. И в результате эту модель можно гонять на любом объеме записей, лишь бы позволяло время. Модели Сбера бесплатны очень-очень условно (см. п.1). При условии катастрофического отставания по качеству не понимаю, почему мне следует их выбирать.

Я всеми силами приветствую развитие российских нейросетей, болею за наш прогресс в этом направлении всей душой! Но, елки-палки, почему же это должно происходить так неконкурентно дорого и одновременно некачественно по сравнению с существующими альтернативами?! Может, раз уж у нас похуже работает (а переубедить меня в этом будет оооочень сложно!), сделать истинно открыто, по-настоящему бесплатно? Собрать нормальный опыт и обратную связь, хорошенько проработать ошибки, добиться лучшего решения на русском языке - и только тогда продавать? Причем, не модель и вычисления, а сервис и адаптацию? Кажется, это более емкий подход в смысле потенциального достижения технологического превосходства на основе пользовательского опыта, чем прямые продажи "здесь-и-сейчас" в условиях отсутствия конкурентных преимуществ.

Примечание: понимаю, что основной фон критики в этом комменте - субъективно оцениваемое отставание одной модели по отношению к другой в то время, как по бенчмаркам вроде бы это не так. Предложу в этом месте задуматься, что важно мне как пользователю - цифра модели на бенчмарке или время, потраченное на корректировку расшифровки (или наоборот, как сейчас при использовании моделей OpenAI, не потраченное).

>почему же это должно происходить так неконкурентно дорого и одновременно некачественно по сравнению с существующими альтернативами

Вы можете представить мир, в котором люди что-то делают не ради сиюминутных гор прибыли или выдающихся результатов по всем фронтам? Я понимаю, что вам хочется поделиться вашей собственной деятельностью с людьми, но совершенно необязательно выставлять причину как критику, тем более, если она такая бестолковая. Деньги считать все умеют, представьте себе.

Да, я знаю области или виды деятельности, в которых люди делают что-то не ради сиюминутных гор прибыли. Я не говорю о том, что нужно пилить свой ChatGPT pro bono. Я о том, что есть альтернатива тому, чтобы выкатить неконкурентное за деньги - выкатить неконкурентное с предложением вместе отловить ошибки, найти способ повысить качество, поработать над ошибками. Иногда за такое контрибьюторов даже вознаграждают. Вопрос только в желании выбрать - "срубить бабла" или таки доделать до хорошего и продвинуть классную нейросеть.

Бестолковость критики - понятие субъективное понятие до тех пор, пока не приведены конкретные резоны. В моем-то случае критика обоснована. Я же специально во введении описал контекст - чтобы было понятно, что излагаю не на пустом месте.

Деньги считать все умеют, представьте себе.

Вот тут смысла претензии не понял, если честно.

Спасибо за OpenSource!
Какое распределение доменов было в псевдоразметке?
Правильно ли понимаю, что звонки были только в псевдоразметке?

GigaAM-CTC по сравнению с Whisper large-v3, почему-то неоправданно много потребляет RAM и VRAM. Для 8,5 минутной аудиозаписи занял всю видео память (20Gb) + 64 Gb RAM. Запускал в WSL локально. Также Whisper ставит все знаки препинания, цифры пишет цифрами, имена, названия и т.п. пишет с большой буквы. Здесь этого совсем нет.

Sign up to leave a comment.