egorsokolov Apr 17 at 11:51

Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

Medium

21 min

7.1K

Artificial IntelligenceMachine learning * Open source * SoftwareLifehacks for geeks

Review

✏️ Technotext 8

+12

Comments 50

SlavikF Apr 17 at 13:49

Спасибо, полезный обзор.

Я на своём MacBook Pro M1 использую похожий инструмент, тоже открытый:

https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

В общем - доволен, работает шустро, русский язык поддерживается.

Ещё вопрос или предложение: было бы хорошо сделать обзор инструментов, которые в потоковом режиме могли бы переводить звук на другой язык. Есть вот такие проекты для этого:

Было бы интересно почитать обзор таких инструментов.

egorsokolov Apr 17 at 14:05

о, я натыкался на упомянутый вами инструмент, пока блуждал по гитхабу, в самом начале пути! кажется я ставил себе что-то заброшенное, что потом унесли заботливые люди и сделали как раз epicenter/whispering

там тоже насколько я понимаю одна из имплементаций Whisper под капотом.

А что касается перевода в потоковом режиме, эта фича есть в Handy + в каких-то из облачных решений, упомянутых в статье. Еще некоторые модели это делают насильственным образом — просто так реагируют на русскую речь. Понимают, но выводят текст по-английски сразу.

aborouhin Apr 17 at 14:44

Ох, не знаю... я пока текст (в т.ч. промпт) набираю, я параллельно структурирую свою мысль, могу вернуться к началу и что-то вставить, что-то переформулировать и т.п. С голосом будет именно что "поток сознания", перемежаемый "эм..." и прочими междометиями :) Ну и если применительно к кодингу - то промпты у меня большие, структурированные на разделы, буллеты и пр., и строго на английском, - что тоже не особо способствует голосовому набору. В большинстве случаев сначала пишу промпт в маркдауне, а потом ссылаюсь на файл. Так и проще, и история промптов потом лежит в репозитории, ну и автокомплит от GitHub Copilot изрядно ускоряет завершение типовых фраз и т.п.

А вот для других задач - спасибо за обзор инструментов. Я давненько уже пробовал разное, лучше всего работал SpeechPulse с локальным Whisper Large, но он был нестерпимо глючен. Попробую Ваши варианты.

egorsokolov Apr 17 at 14:50

По моему опыту, в большинстве случаев хирургическая точность в выражении мысли не слишком нужна, особенно если мы просто промтим модель на какое-нибудь размышление — в результате с качественной моделью edit практически не требуется и дело движется гораздо быстрее.

А некоторые вещи я и вовсе не смог бы из себя достать, если бы это происходило не «через рот», уж сильно (для меня по крайней мере) говорить проще, чем печатать или писать.

aborouhin Apr 17 at 15:02

У меня промпт - это или спецификация (нового проекта или новой фичи), или багрепорт. В первом случае это обычно плюс-минус 50 строк с чёткими разделами - чего хочу, какие вводные, какие критерии успеха и пр. Во втором объём поменьше, но тоже стараюсь донести всё однозначно. Конкретно я использую GitHub SpecKit и в первом случае это вводные для /speckit-specify, во втором - для /speckit-bugfix-report, - но это не так важно, без SDD фреймворка тем более пришлось бы быть особо внимательным к полноте постановки задачи. И мне как раз наоборот сложно представить, как я это наговаривал бы голосом :)

Вот в юридических задачах к нейросети (типа "сделай документ на основе этого образца и данных вот отсюда") всё действительно проще, ну и там я на родном русском пишу, меньше пауз на подбор нужного слова :) Так что тут Ваши рекомендации по софту очень пригодятся.

jetnet Apr 17 at 15:15

а для танкистов можно уточнить - как локальный Виспер текст сюда закинет?

egorsokolov Apr 17 at 15:20

Обычно такой софт грузит текст в буфер и делает вставку в поле, в котором сейчас находится курсор. Хороший софт после этого обратно еще восстанавливает то, что было в буфере "до" (и на эту тему я делал PR в OpenWhispr, он возвращал в буфер только текст, а все остальное — например, скрины — терял).

в Handy также есть вариант имитации набора (просто буквы в поле посылает очень быстро), это не очень удобно на мой взгляд, но иногда прямая вставка невозможна, тогда это может быть полезно

keys4words Apr 17 at 20:01

какое железо тянет лучшую связку - OpenWhispr + Whisper Large + CUDA?

egorsokolov Apr 17 at 20:05

3080 тянула супер, 5070 ti соответственно еще лучше. Думаю, что достойный результат можно получить и на чуть менее производительных видеокартах.

yppro Apr 27 at 10:12

У меня ноут 4060/8 Гб. Диктую длинные тексты на русском и короткие на английском. Что посоветуете?

egorsokolov Apr 27 at 10:23

а вы качните просто handy или openwhispr, там все основные претенденты под капотом (доступны к загрузке в один клик), потестируете и поймете, где вам задержка комфортна, а где уже не очень.

Я думаю whisper medium и whisper turbo более чем комфортно пойдут, а large уже надо смотреть

yppro Apr 27 at 10:26

Спасибо. А кто из них лучше с пунктуацией? Мне критично

egorsokolov Apr 27 at 10:31

у турбо без пунктуационного промпта будет стабильно колбаса без единой запятой, но если промпт добавить, то они примерно на одном уровне будут все трое, может небольшое преимущество у medium/large

eodin Apr 18 at 07:06

Я пишу мобильное приложение и тестирую локальную gemma-4-mini для русского. Но развернутых тестов я не проводил. Спасибо за обзор.

egorsokolov Apr 18 at 07:23

расскажите потом! я геммы пробовал только в качестве второй модели для запятых, пока не нашел способа без второй модели обойтись

VipStars Apr 18 at 08:16

Спасибо за ну очень подробную статью! Нашел новые решения, о которых не знал! Добавлю в свой Канал в ТГ Ai2Local про Локальные ИИ...

У меня в копилке было еще:

Onit https://www.getonit.ai/dictate - 100 % локальная автономная голосовая диктовка

Pindrop https://pindropstt.com - локальная система диктовки

FreeFlow https://github.com/zachlatta/freeflow — бесплатная альтернатива Wispr Flow

Hex https://hex.kitlangton.com или https://github.com/kitlangton/Hex

VoxTape https://github.com/eauchs/voxtape

Whisper Dictate https://github.com/GuigsEvt/whisper-dictate

HITOKU https://hitoku.me

DictaFlow https://dictaflow.io

MacParakeet https://www.macparakeet.com или https://github.com/moona3k/macparakeet - шикарное!

TypeWhisper https://www.typewhisper.com/en/ или https://github.com/TypeWhisper/typewhisper-mac Список Дополнений: https://www.typewhisper.com/en/addons/ (Движки скачиваются в этом разделе)

Dictate https://github.com/siddhantparadox/dictate

egorsokolov Apr 18 at 14:05

Вам похоже свою статью пора писать :)

yppro Apr 27 at 10:10

И что лучше из них?

SkillMax999 Apr 18 at 14:00

Хорошая статья, аналитика на уровне. Кстати, SpeakFlow - реально классная вещь.

egorsokolov Apr 18 at 14:05

благодарю!

kochetkov-ma Apr 18 at 14:07

Мне wisprflow очень понравился. Каждые 2 недели регистрацию там новую учётку под триал. И пилю свой аналог чисто под впйдкожиг с контекстом проекта и перевод и главное нормальный русский с англ терминами. А UI думаю тупо с виспфлоу скопировать. Сервер А100 там флоу с ffmoeg - whisper turbo - qwen 3.5 9b для прст обоатки - обязательно напишу статью как пришел к этому пайплайню.

Вопрос к вам: как считаете на 200 секунд голоса 6-8 секунд на полную обработку с ответветом для юзера это ок?

Естественно более мелкие аудио работаю быстрее

egorsokolov Apr 18 at 14:16

В статье есть мои бенчмарки Large v3 на CUDA (RTF ~30 для разговорной речи), на Vulcan еще быстрее. В вашем кейсе 200 секунд за 6 это будет RTF 33, 8 сек — RTF 25. На мой взгляд очень даже достойный результат.

По моим тестам Турбо сильно проигрывает в код-свитчинге (т.е. в миксе языков), Large V3 с пунктуационным промптом мне дает лучший результат на меньших ресурсах, чем две модели. Но Qwen я конечно помельче запускал, 9b не влезает, допускаю что он может неплохо улучшать результат. Было бы интересно бенчмаркнуться с вашим сетапом :)

Theio Apr 20 at 07:22

Пользуюсь wispr flow уже несколько месяцев, проблем из поста не заметил, сильно упрощает жизнь. Правда мне мультиязычность не нужна - считаю что общаться с ллм на русском это моветон и дроп качества генерации. Ключ на год можно взять за что-то около 1.5к кстати.

egorsokolov Apr 20 at 09:49

считаю что общаться с ллм на русском это моветон и дроп качества генерации.

даже не знаю... я свободно говорю и пишу по-английски, но мне кажется я больше потеряю в неточности и неполноте выражения мысли на втором языке, чем на особенностях токенизации русского

Theio Apr 20 at 22:11

Дело не только в токенизации, модели видели на порядок больше данных на английском, весь код это по сути английский, весь coding RL делается на английском(ну может ещё на китайском немного), большинство терминов это английский. Даже если забить на token efficiency, вы просто выходите модель из режима под который она обучалась, особенно когда речь идёт про кодинг.

egorsokolov Apr 21 at 05:22

Не очень понимаю, о чем вы, код же модель не на русском пишет? Какая разница, на каком языке она мой инпут с ТЗ или описание ошибки получила?

Theio Apr 21 at 12:56

Ну вам как человеку разницы нет, а вот модели есть в силу её архитектуры.

Модель начнёт пытаться писать ответ на русском. В зависимости от модели она начнёт делать и промежуточные выводы на русском, а может даже и reasoning. Поскольку модель хуже генерирует русский, то повышается ошибка галлюцинации - в первую очередь модели учат на английских данных. Если у модели внутренние рассуждения на англ, то вы получаете мешанину в attention постоянно, если на русском, то оно там вообще может сходить с ума внутри.

Кроме того, весь фронтир это MoE модели. У них знание распределены неоднородно, какие-то эксперты лучше работают с русским, какие-то хуже. Вы заставляете роутер экспертов выбирать первых, что снижает вероятность сработать релевантному для задачи эксперта.

Ну и как я уже сказал, эффективность токенизации. У меня зачастую задачи занимают по 100-200к контекста. Чем дальше идём в контекст, тем менее точно работает модель. Использование русского = раздувание контекстного окна -> падает точность.

egorsokolov Apr 21 at 14:50

интересно, спасибо, пожалуй вскопну вопрос поглубже с вашей подачи

tommycruzo Apr 26 at 01:12

Ключ на год можно взять за что-то около 1.5к кстати.
а как а где?

Theio May 2 at 16:22

Где - платиру, но больше таких вкусных предложений не вижу, только за 3к на год. Кстати, в приложении chatGPT (а если вы "серьёзно" вайбкодите то подписка плюс/про должна быть) недавно добавили схожую функцию

Bratken Apr 20 at 16:00

У самого Handy. Плюс Parakeet в том, что на ЦП хорошо крутится.

Самое универсальное решение, на самом деле, т.к. работает на всех трех осях и не нужна видеокарта под такую модель. Единственное, что всякие "пыкмык" не убирает часто. А стучаться к внешней нейронке в инет за пост-обработкой уже перебор.

Все же работа с речью это не та задача, которой необходимо жечь электричество датацентров. Должно все локально прекрасно обрабатываться.

Whisper отдельная тема и я его бы использовал в асинхроне видосы расшифровывать. Хотя в Potplayer whisper medium на ноутбучной rtx3060 вполне себе расшифровывает на ходу.

egorsokolov Apr 20 at 16:47

Да, Parakeet очень быстрый и хорошо работает на CPU, но мою речь недостаточно хорошо берет.

Но у меня 10% слов английские, и я ~~разговариваю с компом целыми днями~~ очень требователен к результату)

Не вижу особой проблемы использовать для транскрибации облачные мощности, но если есть возможность делать локально (и бесплатно) — супер.

baslie Apr 21 at 07:43

А я тут как раз свою приложуху с Giga AM под капотом для андроидов выложил... https://www.rustore.ru/catalog/app/com.baslie.negolosom

egorsokolov Apr 21 at 08:59

для чистого русского супер вещь!

Dionisvl Apr 22 at 05:27

хорошая статья но конечно хотелось бы тут увидеть еще Qwen TTS и Gemini 3.1 Flash TTS

egorsokolov Apr 22 at 05:53

Qwen TTS и Gemini 3.1 Flash TTS — это text-to-speech модели, в статье я разбираю движение в обратную сторону

Toolza Apr 23 at 04:11

Согласен, Wispr Flow ускоряет, но OpenWhispr на CUDA с Whisper Large рвет всех по приватности и ru-en без облака. GigaAM кириллицей стабильно портит “Whisper” в “Виспер”, плюс эти растяжки “аааа” бесят. На слабом железе везде лотерея, диктуешь 10 секунд, правишь минуту. А кто-нибудь пробовал SuperWhisper с fine-tune под кодинг, реально юзабельно?

egorsokolov Apr 23 at 19:10

Имеет смысл через handy то же самое попробовать запустить, на 5070 ti оказалось в полтора раза быстрее на Vulkan, чем на CUDA к моему большому удивлению.

SuperWhisper с fine-tune под кодинг, реально юзабельно?

Я когда тестил, не видел там такой опции, можете линкануть?

rodial Apr 24 at 15:26

А чего T-one не включили в сравнение?

egorsokolov Apr 24 at 15:58

А что это?

rodial Apr 25 at 06:32

https://github.com/voicekit-team/T-one

https://huggingface.co/t-tech/T-one

https://habr.com/ru/companies/tbank/articles/929850/

egorsokolov Apr 27 at 09:19

спасибо, почекал, уже даже сделал скрипт и прогнал через нее пару тестов, и только потом увидел, что это модель без пунктуации — для меня это ее дисквалифицирует к сожалению

rodial May 1 at 15:55

Попробовал сейчас VibeVoice-ASR и он показался мне отличным даже с Q4, пунктуация есть, разпознал даже моё аудио на котором whisper был не точен.

egorsokolov May 2 at 16:44

ого, 9B... боюсь, чуток тяжеловато будет для локальной диктовки!

upd: хотя вижу можно квантованный вариант взять, возможно доберусь потестить в ближайшее время

lamblackout May 4 at 13:14

Спасибо за разбор. Полная честность: я основатель Диктуй, мы запустились в марте 2026 и в ваше шестимесячное окно тестов не успели попасть. Дописал контр-статью с ракурсом «что выбирать русскоязычному при оплате в рублях», если интересно — https://diktuy.ru/blog/wispr-flow-v-rossii-2026. Wispr там разбираю честно: сильный продукт, но в РФ упирается в Stripe-only оплату и базовый Whisper Large-v3 без специализации под русский (~7-9% WER против ~5-6% у Large-v3-turbo через Groq и 3.3% у GigaAM v3 — цифры с атрибуцией к вашему бенчмарку взял).

egorsokolov May 4 at 13:50

а как вы смогли заключить, что wisprflow используют именно Large v3? Также у меня есть ощущение, что они возможно подчищают второй моделькой следом за первой.

Про ваш продукт: что-то кроме виспера сейчас есть в цепочке? есть ли планы по ее (цепочки) расширению? или может быть модельку дофайнтюнить планируете?

lamblackout May 4 at 14:25

Прямого тех-disclosure у Wispr нигде нет, на /security одно "proprietary contextual AI". Whisper Large-v3 я взял по аналогии с SuperWhisper и парой RU-обзоров. Это допущение, не факт, поправлю в тексте.

lamblackout May 4 at 14:39

Про вторую модельку попали точно)) По кейсу Baseten (https://www.baseten.co/resources/customers/wispr-flow/) у них Llama 3.1 дообученная под real-time cleanup плюс OpenAI на отдельные задачи. Pipeline двойной: ASR, потом Llama-cleanup, потом текст в окно. Auto Cleanup от 24 апреля видимая часть этого. Мой стек: ASR Whisper Large-v3-turbo через Groq, поверх OpenAI для Режима трансформации. Функционально как их Auto Cleanup, только инструкция пользовательская. Кроме виспера и GPT ничего, словарь и автозамена это Whisper-промпты плюс regex. По расширению смотрим в сторону GigaAM v3 как baseline под русский, разница 3.3% против 5-6% WER но на мой взгляд не ощутимая вообще. Сроков не назову, нужно больше data с проды.

egorsokolov May 4 at 14:54

спасибо, что рассказали про текущий стек!

Не соглашусь с вами насчет неощутимости разницы 3% vs 6% WER, эффективно это означает в два раза больше ошибок, разница я бы сказал очень даже драматичная. Но при всех его преимуществах, неумение дружить с английскими словами делает GigaAM совершенно неподходящим для меня в качестве daily driver.

lamblackout May 4 at 15:12

Тут согласен, математически разница в 2 раза примерно по ошибкам. Но именно ваш пойнт про английские слова попадает в нерв так сказать. У меня самого как разработчика та же история: наговариваешь промпт используя термины вроде API, LangChain, MCP-сервер или просто описываешь меню dropdown, и классические русские STT эти термины путают, потом редактировать дольше чем было бы напечатать. У GigaAM это структурная вещь: его учили на чистом русском корпусе, английская техлексика для модели "вне распределения". Поэтому склоняюсь, что западную базу тюнить под русский продуктивнее чем русскую под английский. Whisper сам по себе знает 99 языков из коробки и неплохо ловит switc внутри фразы, остаётся только подкрутить пунктуацию и ударение. С GigaAM пришлось бы фактически второй ASR-слой строить под английские вставки. По текущему стеку своего приложения, сам пока ограничений не чувствую, Whisper Large-v3-turbo даёт нужный баланс под daily driver на mixed RU+EN.