billiedark22 апр в 19:18

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

Средний

8 мин

13K

Машинное обучение * Разработка под e-commerce * Искусственный интеллектPython * Linux *

Кейс

+15

Комментарии 9

TerraV 22 апр в 19:28

Я может вас огорчу, но OpenAI API прекрасно справляется с описанным вами сценарием. Многоязычность + возможность указать список "жаргонных" слов (чтобы еще улучшить точность распознавания, которая даже из коробки шикарна) за $0.006 в минуту. Я не знаю что еще желать. У меня около 20 часов STT в месяц

billiedark 22 апр в 21:34

Слушайте, сейчас довольно быстро ии компании развиваются и я честно могу допустить, что дела с OpenAI API стали лучше, и я скажу больше - Вы меня заинтриговали! Я на выходных проведу актуальные тесты нашей модели против опенаи, самому очень интересно будет пронаблюдать за разницей! Спасибо за инсайт еще раз

artur-aeza 22 апр в 21:31

WER 6-7% на техтерминах это круто, но интересно как с задержкой. Fine-tuned Whisper не самая маленькая модель, а на собесе подсказка должна быть в реалтайме

billiedark 22 апр в 21:43

Уф, отдельная история комьюта выделенного на это, пробовали runpod по началу, но сейчас остановились на сотрудничестве с одним сервисом, они скоро выйдут на рынок и мы обьявим об этом (скорее всего), но пока краткий ответ: используем партнерские мощные сервера, позволяющее до 200 интервью одновременно в лайвтайме. Пока что это покрывает потребности, если (надеюсь) ситуация с количеством юзеров изменится, горизонтально масштабироваться не будет проблемой!

j3ddy 22 апр в 21:31

интересно что метафон туда прикрутили, я думал это какая-то древность которую никто уже не использует)

вопрос - 400мс это на вашем сервре считается или у пользователя локально? просто если локально то у меня например ноут без норм видюхи, интересно как это вообще тогда работает в таком случае

billiedark 22 апр в 21:38

так, по порядку:
Вся обработка на нашем сервере - поэтому какой у вас компьютер вообще не имеет разницы (желательно интернет стабильный иметь)
Касаемо 400мс - это задержка уже "Я сказал - программа показала текст", разница может быть только из-за стабильности сети (не критичная)

j3ddy 23 апр в 09:54

понял, спасибо за пояснение. тогда вопрос снят, у меня интернет норм. просто обычно когда пишут "400мс" не уточняют где именно считается, поэтому и спросил

topusOctopus 24 апр в 14:58

Добрый день! Спасибо за статью. Выглядит крайне интересной и результаты классные. Заинтересовали следующие моменты:
Вы пишете: "Объём получился около 30 ГБ очищенного аудио с выверенной разметкой."
1. А сколько это в часах данных? Это может оказать около 300 часов аудио или >/<.
2. Вы смогли разметить такой объем данных за 1.5 месяца. А разметка происходит "стандартная для ASR" аудио + текст или вы сверху еще размечали для задач диаризации и другого?
3. Считали ли вы % соотношение "терминов/аббревиатур/англицизмов" с другими словами в вашей тренировочной выборке?
Буду очень рад, если получится ответить на вопросы)

egorsokolov 29 апр в 10:42

Привет! круто, спасибо, что поделился, я нашел эту статью, собирая ресёрч для своего маленького файнтюна.

Подскажи пожалуйста:

1) Планируете ли вы публиковать LoRA-адаптер или модель в open-source?

2) eval/WER_tech на графике — это inference только Whisper-large-v3 + LoRA или весь deployed stack? Если весь стэк, можешь ли поделиться цифрами отдельно по модели?

3) Ещё интересно — английские IT-термины в reference размечали латиницей («pull request») или транслитом («пулл-реквест»)? Я у себя выбрал strict latin, но вижу что рецепты есть разные.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий