Pull to refresh

Comments 50

Спасибо, полезный обзор.

Я на своём MacBook Pro M1 использую похожий инструмент, тоже открытый:

https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

В общем - доволен, работает шустро, русский язык поддерживается.

Ещё вопрос или предложение: было бы хорошо сделать обзор инструментов, которые в потоковом режиме могли бы переводить звук на другой язык. Есть вот такие проекты для этого:

Было бы интересно почитать обзор таких инструментов.

о, я натыкался на упомянутый вами инструмент, пока блуждал по гитхабу, в самом начале пути! кажется я ставил себе что-то заброшенное, что потом унесли заботливые люди и сделали как раз epicenter/whispering

там тоже насколько я понимаю одна из имплементаций Whisper под капотом.

А что касается перевода в потоковом режиме, эта фича есть в Handy + в каких-то из облачных решений, упомянутых в статье. Еще некоторые модели это делают насильственным образом — просто так реагируют на русскую речь. Понимают, но выводят текст по-английски сразу.

Ох, не знаю... я пока текст (в т.ч. промпт) набираю, я параллельно структурирую свою мысль, могу вернуться к началу и что-то вставить, что-то переформулировать и т.п. С голосом будет именно что "поток сознания", перемежаемый "эм..." и прочими междометиями :) Ну и если применительно к кодингу - то промпты у меня большие, структурированные на разделы, буллеты и пр., и строго на английском, - что тоже не особо способствует голосовому набору. В большинстве случаев сначала пишу промпт в маркдауне, а потом ссылаюсь на файл. Так и проще, и история промптов потом лежит в репозитории, ну и автокомплит от GitHub Copilot изрядно ускоряет завершение типовых фраз и т.п.

А вот для других задач - спасибо за обзор инструментов. Я давненько уже пробовал разное, лучше всего работал SpeechPulse с локальным Whisper Large, но он был нестерпимо глючен. Попробую Ваши варианты.

По моему опыту, в большинстве случаев хирургическая точность в выражении мысли не слишком нужна, особенно если мы просто промтим модель на какое-нибудь размышление — в результате с качественной моделью edit практически не требуется и дело движется гораздо быстрее.

А некоторые вещи я и вовсе не смог бы из себя достать, если бы это происходило не «через рот», уж сильно (для меня по крайней мере) говорить проще, чем печатать или писать.

У меня промпт - это или спецификация (нового проекта или новой фичи), или багрепорт. В первом случае это обычно плюс-минус 50 строк с чёткими разделами - чего хочу, какие вводные, какие критерии успеха и пр. Во втором объём поменьше, но тоже стараюсь донести всё однозначно. Конкретно я использую GitHub SpecKit и в первом случае это вводные для /speckit-specify, во втором - для /speckit-bugfix-report, - но это не так важно, без SDD фреймворка тем более пришлось бы быть особо внимательным к полноте постановки задачи. И мне как раз наоборот сложно представить, как я это наговаривал бы голосом :)

Вот в юридических задачах к нейросети (типа "сделай документ на основе этого образца и данных вот отсюда") всё действительно проще, ну и там я на родном русском пишу, меньше пауз на подбор нужного слова :) Так что тут Ваши рекомендации по софту очень пригодятся.

а для танкистов можно уточнить - как локальный Виспер текст сюда закинет?

чатик
чатик

Обычно такой софт грузит текст в буфер и делает вставку в поле, в котором сейчас находится курсор. Хороший софт после этого обратно еще восстанавливает то, что было в буфере "до" (и на эту тему я делал PR в OpenWhispr, он возвращал в буфер только текст, а все остальное — например, скрины — терял).

в Handy также есть вариант имитации набора (просто буквы в поле посылает очень быстро), это не очень удобно на мой взгляд, но иногда прямая вставка невозможна, тогда это может быть полезно

какое железо тянет лучшую связку - OpenWhispr + Whisper Large + CUDA?

3080 тянула супер, 5070 ti соответственно еще лучше. Думаю, что достойный результат можно получить и на чуть менее производительных видеокартах.

У меня ноут 4060/8 Гб. Диктую длинные тексты на русском и короткие на английском. Что посоветуете?

а вы качните просто handy или openwhispr, там все основные претенденты под капотом (доступны к загрузке в один клик), потестируете и поймете, где вам задержка комфортна, а где уже не очень.

Я думаю whisper medium и whisper turbo более чем комфортно пойдут, а large уже надо смотреть

Спасибо. А кто из них лучше с пунктуацией? Мне критично

у турбо без пунктуационного промпта будет стабильно колбаса без единой запятой, но если промпт добавить, то они примерно на одном уровне будут все трое, может небольшое преимущество у medium/large

Я пишу мобильное приложение и тестирую локальную gemma-4-mini для русского. Но развернутых тестов я не проводил. Спасибо за обзор.

расскажите потом! я геммы пробовал только в качестве второй модели для запятых, пока не нашел способа без второй модели обойтись

Спасибо за ну очень подробную статью! Нашел новые решения, о которых не знал! Добавлю в свой Канал в ТГ Ai2Local про Локальные ИИ...

У меня в копилке было еще:

Onit https://www.getonit.ai/dictate - 100 % локальная автономная голосовая диктовка

Pindrop https://pindropstt.com - локальная система диктовки

FreeFlow https://github.com/zachlatta/freeflow — бесплатная альтернатива Wispr Flow

Hex https://hex.kitlangton.com или https://github.com/kitlangton/Hex

VoxTape https://github.com/eauchs/voxtape

Whisper Dictate https://github.com/GuigsEvt/whisper-dictate

HITOKU https://hitoku.me

DictaFlow https://dictaflow.io

MacParakeet https://www.macparakeet.com или https://github.com/moona3k/macparakeet - шикарное!

TypeWhisper https://www.typewhisper.com/en/ или https://github.com/TypeWhisper/typewhisper-mac Список Дополнений: https://www.typewhisper.com/en/addons/ (Движки скачиваются в этом разделе)

Dictate https://github.com/siddhantparadox/dictate

Вам похоже свою статью пора писать :)

И что лучше из них?

Хорошая статья, аналитика на уровне. Кстати, SpeakFlow - реально классная вещь.

Мне wisprflow очень понравился. Каждые 2 недели регистрацию там новую учётку под триал. И пилю свой аналог чисто под впйдкожиг с контекстом проекта и перевод и главное нормальный русский с англ терминами. А UI думаю тупо с виспфлоу скопировать. Сервер А100 там флоу с ffmoeg - whisper turbo - qwen 3.5 9b для прст обоатки - обязательно напишу статью как пришел к этому пайплайню.

Вопрос к вам: как считаете на 200 секунд голоса 6-8 секунд на полную обработку с ответветом для юзера это ок?

Естественно более мелкие аудио работаю быстрее

В статье есть мои бенчмарки Large v3 на CUDA (RTF ~30 для разговорной речи), на Vulcan еще быстрее. В вашем кейсе 200 секунд за 6 это будет RTF 33, 8 сек — RTF 25. На мой взгляд очень даже достойный результат.

По моим тестам Турбо сильно проигрывает в код-свитчинге (т.е. в миксе языков), Large V3 с пунктуационным промптом мне дает лучший результат на меньших ресурсах, чем две модели. Но Qwen я конечно помельче запускал, 9b не влезает, допускаю что он может неплохо улучшать результат. Было бы интересно бенчмаркнуться с вашим сетапом :)

Пользуюсь wispr flow уже несколько месяцев, проблем из поста не заметил, сильно упрощает жизнь. Правда мне мультиязычность не нужна - считаю что общаться с ллм на русском это моветон и дроп качества генерации. Ключ на год можно взять за что-то около 1.5к кстати.

считаю что общаться с ллм на русском это моветон и дроп качества генерации.

даже не знаю... я свободно говорю и пишу по-английски, но мне кажется я больше потеряю в неточности и неполноте выражения мысли на втором языке, чем на особенностях токенизации русского

Дело не только в токенизации, модели видели на порядок больше данных на английском, весь код это по сути английский, весь coding RL делается на английском(ну может ещё на китайском немного), большинство терминов это английский. Даже если забить на token efficiency, вы просто выходите модель из режима под который она обучалась, особенно когда речь идёт про кодинг.

Не очень понимаю, о чем вы, код же модель не на русском пишет? Какая разница, на каком языке она мой инпут с ТЗ или описание ошибки получила?

Ну вам как человеку разницы нет, а вот модели есть в силу её архитектуры.

Модель начнёт пытаться писать ответ на русском. В зависимости от модели она начнёт делать и промежуточные выводы на русском, а может даже и reasoning. Поскольку модель хуже генерирует русский, то повышается ошибка галлюцинации - в первую очередь модели учат на английских данных. Если у модели внутренние рассуждения на англ, то вы получаете мешанину в attention постоянно, если на русском, то оно там вообще может сходить с ума внутри.

Кроме того, весь фронтир это MoE модели. У них знание распределены неоднородно, какие-то эксперты лучше работают с русским, какие-то хуже. Вы заставляете роутер экспертов выбирать первых, что снижает вероятность сработать релевантному для задачи эксперта.

Ну и как я уже сказал, эффективность токенизации. У меня зачастую задачи занимают по 100-200к контекста. Чем дальше идём в контекст, тем менее точно работает модель. Использование русского = раздувание контекстного окна -> падает точность.

интересно, спасибо, пожалуй вскопну вопрос поглубже с вашей подачи

Ключ на год можно взять за что-то около 1.5к кстати.
а как а где?

Где - платиру, но больше таких вкусных предложений не вижу, только за 3к на год. Кстати, в приложении chatGPT (а если вы "серьёзно" вайбкодите то подписка плюс/про должна быть) недавно добавили схожую функцию

У самого Handy. Плюс Parakeet в том, что на ЦП хорошо крутится.

Самое универсальное решение, на самом деле, т.к. работает на всех трех осях и не нужна видеокарта под такую модель. Единственное, что всякие "пыкмык" не убирает часто. А стучаться к внешней нейронке в инет за пост-обработкой уже перебор.

Все же работа с речью это не та задача, которой необходимо жечь электричество датацентров. Должно все локально прекрасно обрабатываться.

Whisper отдельная тема и я его бы использовал в асинхроне видосы расшифровывать. Хотя в Potplayer whisper medium на ноутбучной rtx3060 вполне себе расшифровывает на ходу.

Да, Parakeet очень быстрый и хорошо работает на CPU, но мою речь недостаточно хорошо берет.

Но у меня 10% слов английские, и я разговариваю с компом целыми днями очень требователен к результату)

Не вижу особой проблемы использовать для транскрибации облачные мощности, но если есть возможность делать локально (и бесплатно) — супер.

для чистого русского супер вещь!

хорошая статья но конечно хотелось бы тут увидеть еще Qwen TTS и Gemini 3.1 Flash TTS

Qwen TTS и Gemini 3.1 Flash TTS — это text-to-speech модели, в статье я разбираю движение в обратную сторону

Согласен, Wispr Flow ускоряет, но OpenWhispr на CUDA с Whisper Large рвет всех по приватности и ru-en без облака. GigaAM кириллицей стабильно портит “Whisper” в “Виспер”, плюс эти растяжки “аааа” бесят. На слабом железе везде лотерея, диктуешь 10 секунд, правишь минуту. А кто-нибудь пробовал SuperWhisper с fine-tune под кодинг, реально юзабельно?

Имеет смысл через handy то же самое попробовать запустить, на 5070 ti оказалось в полтора раза быстрее на Vulkan, чем на CUDA к моему большому удивлению.

SuperWhisper с fine-tune под кодинг, реально юзабельно?

Я когда тестил, не видел там такой опции, можете линкануть?

А чего T-one не включили в сравнение?

спасибо, почекал, уже даже сделал скрипт и прогнал через нее пару тестов, и только потом увидел, что это модель без пунктуации — для меня это ее дисквалифицирует к сожалению

Попробовал сейчас VibeVoice-ASR и он показался мне отличным даже с Q4, пунктуация есть, разпознал даже моё аудио на котором whisper был не точен.

ого, 9B... боюсь, чуток тяжеловато будет для локальной диктовки!

upd: хотя вижу можно квантованный вариант взять, возможно доберусь потестить в ближайшее время

Спасибо за разбор. Полная честность: я основатель Диктуй, мы запустились в марте 2026 и в ваше шестимесячное окно тестов не успели попасть. Дописал контр-статью с ракурсом «что выбирать русскоязычному при оплате в рублях», если интересно — https://diktuy.ru/blog/wispr-flow-v-rossii-2026. Wispr там разбираю честно: сильный продукт, но в РФ упирается в Stripe-only оплату и базовый Whisper Large-v3 без специализации под русский (~7-9% WER против ~5-6% у Large-v3-turbo через Groq и 3.3% у GigaAM v3 — цифры с атрибуцией к вашему бенчмарку взял).

а как вы смогли заключить, что wisprflow используют именно Large v3? Также у меня есть ощущение, что они возможно подчищают второй моделькой следом за первой.

Про ваш продукт: что-то кроме виспера сейчас есть в цепочке? есть ли планы по ее (цепочки) расширению? или может быть модельку дофайнтюнить планируете?

Прямого тех-disclosure у Wispr нигде нет, на /security одно "proprietary contextual AI". Whisper Large-v3 я взял по аналогии с SuperWhisper и парой RU-обзоров. Это допущение, не факт, поправлю в тексте.

Про вторую модельку попали точно)) По кейсу Baseten (https://www.baseten.co/resources/customers/wispr-flow/) у них Llama 3.1 дообученная под real-time cleanup плюс OpenAI на отдельные задачи. Pipeline двойной: ASR, потом Llama-cleanup, потом текст в окно. Auto Cleanup от 24 апреля видимая часть этого. Мой стек: ASR Whisper Large-v3-turbo через Groq, поверх OpenAI для Режима трансформации. Функционально как их Auto Cleanup, только инструкция пользовательская. Кроме виспера и GPT ничего, словарь и автозамена это Whisper-промпты плюс regex. По расширению смотрим в сторону GigaAM v3 как baseline под русский, разница 3.3% против 5-6% WER но на мой взгляд не ощутимая вообще. Сроков не назову, нужно больше data с проды.

спасибо, что рассказали про текущий стек!

Не соглашусь с вами насчет неощутимости разницы 3% vs 6% WER, эффективно это означает в два раза больше ошибок, разница я бы сказал очень даже драматичная. Но при всех его преимуществах, неумение дружить с английскими словами делает GigaAM совершенно неподходящим для меня в качестве daily driver.

Тут согласен, математически разница в 2 раза примерно по ошибкам. Но именно ваш пойнт про английские слова попадает в нерв так сказать. У меня самого как разработчика та же история: наговариваешь промпт используя термины вроде API, LangChain, MCP-сервер или просто описываешь меню dropdown, и классические русские STT эти термины путают, потом редактировать дольше чем было бы напечатать. У GigaAM это структурная вещь: его учили на чистом русском корпусе, английская техлексика для модели "вне распределения". Поэтому склоняюсь, что западную базу тюнить под русский продуктивнее чем русскую под английский. Whisper сам по себе знает 99 языков из коробки и неплохо ловит switc внутри фразы, остаётся только подкрутить пунктуацию и ударение. С GigaAM пришлось бы фактически второй ASR-слой строить под английские вставки. По текущему стеку своего приложения, сам пока ограничений не чувствую, Whisper Large-v3-turbo даёт нужный баланс под daily driver на mixed RU+EN.

Sign up to leave a comment.

Articles