Обновить
1

Пользователь

Отправить сообщение

Тут согласен, математически разница в 2 раза примерно по ошибкам. Но именно ваш пойнт про английские слова попадает в нерв так сказать. У меня самого как разработчика та же история: наговариваешь промпт используя термины вроде API, LangChain, MCP-сервер или просто описываешь меню dropdown, и классические русские STT эти термины путают, потом редактировать дольше чем было бы напечатать. У GigaAM это структурная вещь: его учили на чистом русском корпусе, английская техлексика для модели "вне распределения". Поэтому склоняюсь, что западную базу тюнить под русский продуктивнее чем русскую под английский. Whisper сам по себе знает 99 языков из коробки и неплохо ловит switc внутри фразы, остаётся только подкрутить пунктуацию и ударение. С GigaAM пришлось бы фактически второй ASR-слой строить под английские вставки. По текущему стеку своего приложения, сам пока ограничений не чувствую, Whisper Large-v3-turbo даёт нужный баланс под daily driver на mixed RU+EN.

Про вторую модельку попали точно)) По кейсу Baseten (https://www.baseten.co/resources/customers/wispr-flow/) у них Llama 3.1 дообученная под real-time cleanup плюс OpenAI на отдельные задачи. Pipeline двойной: ASR, потом Llama-cleanup, потом текст в окно. Auto Cleanup от 24 апреля видимая часть этого. Мой стек: ASR Whisper Large-v3-turbo через Groq, поверх OpenAI для Режима трансформации. Функционально как их Auto Cleanup, только инструкция пользовательская. Кроме виспера и GPT ничего, словарь и автозамена это Whisper-промпты плюс regex. По расширению смотрим в сторону GigaAM v3 как baseline под русский, разница 3.3% против 5-6% WER но на мой взгляд не ощутимая вообще. Сроков не назову, нужно больше data с проды.

Прямого тех-disclosure у Wispr нигде нет, на /security одно "proprietary contextual AI". Whisper Large-v3 я взял по аналогии с SuperWhisper и парой RU-обзоров. Это допущение, не факт, поправлю в тексте.

Спасибо за разбор. Полная честность: я основатель Диктуй, мы запустились в марте 2026 и в ваше шестимесячное окно тестов не успели попасть. Дописал контр-статью с ракурсом «что выбирать русскоязычному при оплате в рублях», если интересно — https://diktuy.ru/blog/wispr-flow-v-rossii-2026. Wispr там разбираю честно: сильный продукт, но в РФ упирается в Stripe-only оплату и базовый Whisper Large-v3 без специализации под русский (~7-9% WER против ~5-6% у Large-v3-turbo через Groq и 3.3% у GigaAM v3 — цифры с атрибуцией к вашему бенчмарку взял).

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бэкенд разработчик
От 350 000 ₽
Git
SQL
Python
PostgreSQL
Docker
CI/CD
gRPC