Комментарии 9
Я может вас огорчу, но OpenAI API прекрасно справляется с описанным вами сценарием. Многоязычность + возможность указать список "жаргонных" слов (чтобы еще улучшить точность распознавания, которая даже из коробки шикарна) за $0.006 в минуту. Я не знаю что еще желать. У меня около 20 часов STT в месяц
Слушайте, сейчас довольно быстро ии компании развиваются и я честно могу допустить, что дела с OpenAI API стали лучше, и я скажу больше - Вы меня заинтриговали! Я на выходных проведу актуальные тесты нашей модели против опенаи, самому очень интересно будет пронаблюдать за разницей! Спасибо за инсайт еще раз
WER 6-7% на техтерминах это круто, но интересно как с задержкой. Fine-tuned Whisper не самая маленькая модель, а на собесе подсказка должна быть в реалтайме
Уф, отдельная история комьюта выделенного на это, пробовали runpod по началу, но сейчас остановились на сотрудничестве с одним сервисом, они скоро выйдут на рынок и мы обьявим об этом (скорее всего), но пока краткий ответ: используем партнерские мощные сервера, позволяющее до 200 интервью одновременно в лайвтайме. Пока что это покрывает потребности, если (надеюсь) ситуация с количеством юзеров изменится, горизонтально масштабироваться не будет проблемой!
интересно что метафон туда прикрутили, я думал это какая-то древность которую никто уже не использует)
вопрос - 400мс это на вашем сервре считается или у пользователя локально? просто если локально то у меня например ноут без норм видюхи, интересно как это вообще тогда работает в таком случае
так, по порядку:
Вся обработка на нашем сервере - поэтому какой у вас компьютер вообще не имеет разницы (желательно интернет стабильный иметь)
Касаемо 400мс - это задержка уже "Я сказал - программа показала текст", разница может быть только из-за стабильности сети (не критичная)
Добрый день! Спасибо за статью. Выглядит крайне интересной и результаты классные. Заинтересовали следующие моменты:
Вы пишете: "Объём получился около 30 ГБ очищенного аудио с выверенной разметкой."
1. А сколько это в часах данных? Это может оказать около 300 часов аудио или >/<.
2. Вы смогли разметить такой объем данных за 1.5 месяца. А разметка происходит "стандартная для ASR" аудио + текст или вы сверху еще размечали для задач диаризации и другого?
3. Считали ли вы % соотношение "терминов/аббревиатур/англицизмов" с другими словами в вашей тренировочной выборке?
Буду очень рад, если получится ответить на вопросы)
Привет! круто, спасибо, что поделился, я нашел эту статью, собирая ресёрч для своего маленького файнтюна.
Подскажи пожалуйста:
1) Планируете ли вы публиковать LoRA-адаптер или модель в open-source?
2) eval/WER_tech на графике — это inference только Whisper-large-v3 + LoRA или весь deployed stack? Если весь стэк, можешь ли поделиться цифрами отдельно по модели?
3) Ещё интересно — английские IT-термины в reference размечали латиницей («pull request») или транслитом («пулл-реквест»)? Я у себя выбрал strict latin, но вижу что рецепты есть разные.

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим