Комментарии 28
по-моему у тебя ссылочка на гитхаб не работает)
Буфер обмена. Вставка текста через Ctrl+V / Cmd+V требует положить текст в буфер обмена. Но там может быть что-то важное.
Именно на виндах из коробки есть на диво полезное сочетание win+V и журнал буфера обмена. Советую.
Готовых решений, которые бы устроили, сходу не нашёл.
Возможно просто и не хотели подсознательно?
https://github.com/cjpais/Handy
Press a shortcut, speak, and have your words appear in any text field.
Да сейчас такие вещи на вайбкодить не сложно, и довольно интересно.
+1 за Handy. Нашелся багос, разве что, что при запущенном приложении при активном скролле мышкой (какая-нибудь logitech MX Anywhere 3 с вечным скроллом) винда начинает лагать - лечится сменой api ввода в экспериментальных настройках.
Разве что модели без впн не качаются. Из мультиязычных Parakeet V3 работает на процессоре очень хорошо. И в 0.7.10 завезли чисто русскоязычную модель. В ноуте есть ryzen 7840h. А на другом ноуте с rtx3060 и whisper large вполне гонять
А он тоже умеет "убрать слова-паразиты и "окультурить" текст?"
Мне в статье идея связки с LLM понравилась.
...что именно делает LLM, целиком определяется промптом. Дефолтный убирает слова-паразиты, расставляет пунктуацию, поправляет регистр. Но через кастомный промпт можно переформатировать текст в email, перевести на другой язык, привести к стилю документации — короче, как настроите. Оба шага работают локально.
Вполне возможно, что вы отчасти правы. Велосипеды, там, где это не вредно для дела, я люблю и этого не стесняюсь. Если речь о работе, то критерии, очевидно, будут иными. Но конкретно в данном случае есть как минимум один важный для меня лично контраргумент. Мысль была в том, чтобы реализовать push-to-talk максимально прямо и тупо — так, чтобы код можно было прочитать за 5 минут. Возможно, я параноик, но, посмотрев на Handy, я подумал: «либо мне нужно читать весь этот код, либо психологически для меня это то же самое, что облачный сервис».
Да, проектов куча и это факт. И помощь в коде - однозначно существует, но действительно интересно, так как реализовать можно по разному. Думаю, что автор не отрицает существование альтернатив, просто подошёл к выбору с позиции "мне нужно прямо сейчас и так, как я хочу". Он полез в детали, которые часто остаются за кадром. И atatchin добавил, например, пребуфер и всякое для очистки, восстановления и так далее. Данные часто теряются и это без опыта при вайбкоде можно упустить.
Например, для русского языка я нашёл для себя очень удобную модель antony66/whisper-large-v3-russian, которую можно запустить даже на старом смартфоне в termux (но последнее это вопрос, конечно, надо оно так кому?))). И в коде есть механизм, чтобы любой мог подставить свою.
Фраза «которые бы устроили» здесь ключевая. Он собрал именно то, что устроило его, с понятным кодом, без лишней "магии". И поделился, чтобы другие могли взять за основу или подсмотреть интересные приёмы. Так что, наверное, не столько "не нашёл готовых", сколько "решил сделать по-своему".
И, пока готовил ответ, почитал про Handy. Оказалось, у него тоже есть пребуфер) но и проект более продвинутый (графический интерфейс, поддрежка CPU, удаление шума, ...). Это готовый продукт для широкого круга пользователей, которым нужен удобный интерфейс и коробочная поддержка разных платформ. Спору нет. Но подход автора статьи - это уже инструмент для тех, кто хочет иметь полный контроль над каждой деталью.
Ещё добавлю, что для локальных целей gemma3, на мой взгляд, самая умная из всех, что тестировал за три года - в частности нравится версия 27b. Тем более после обновления Ollama очень выручает оптимизация памяти. Так, у меня для проектов 4 GPU от NVIDIA, но с осени 2025 две из них не поддерживаются производителем (серия 10) и gemma3:27b уже начинала тормозить, залезая в обычный RAM. Теперь Ollama позволяет запускать её всего на 32Gb и скорость и качество ответов не теряется. НО! Для редакции текста я бы использовал что-то значительно легче.
Пользуюсь Whispering, работает отлично
Буквально на днях себе создал аналогичное приложение, правда пока под макос на М1. Сделано на расте, т.к., имхо, питон слишком плох для этого, попробовал собрать и под винду, но там надо баги править, чуть позже добавлю ) скачать можно https://boosty.to/whisper_typer , туда же и для остальных ОС буду выкладывать (хочу для стимдека собрать)
Прекрасное решение! А для смартфонов что-то подобное возможно?
Это не подходит даже для большинства ПК. Виспер и ллм требуют видеокарту с большим количеством видеопамяти.
А что конкретно нужно для смартфона? Чем не устраивает например клавиатура от яндекса, в ней есть распознавание и облагораживание текста, да и в стандартной клавиатуре от гугла оно есть.
Как раз сегодня прикрутил к своему проекту speech_to_text - пакет распознавания речи. Без особых заморочек.
Я себе сделал свою штуку для андроида. Ибо решал свою проблему. Люблю в тг, например, общаться короткими ГС до 20 секунд. Но понимаю, как утомительно может быть слушать кучу ГС, а транскрипция от ТГ либо заставляет ждать, либо у собеседника нету премиума. Сделал для себя и для родного человека. Пользуюсь - радуюсь.








Ну и да, чисто для себя я еще сделал деление текста по абзацам, потому что это чисто мой стиль писания, когда есть одна пустая строка между предложениями. Но сейчас я у себя ее отключил. НУ и еще функционал касательно считывания эмоциональности.. Я записываю голос из корня, поэтому могу в два потока делать обработку. И текст ТАМ, ГДЕ НУЖНО, делается эмоциональным, если он соответствуетю
Введите текст
faster-whisper самое неудачное решение, очень плохо распознает русскую речь. Для этого лучше использовать gigaam
Спасибо, посмотрю. Цель была сделать тулу чтобы "уже сегодня" работала, и могу сказать что меня вполне устроило качество распознавания. По крайней мере для нужд промтинга, там где все равно нейронка потом что имелось ввиду, вполне юзабельно.
Тут вопрос в том чтобы скрипт оставался небольшим, иначе опять же потеряется смысл проекта. Но идея такая посещала. Только я бы не шел в сторону implicit зависимости от окна (легко наступить на грабли). Скорее это может быть несколько профайлов на разных хоткеях. Пользователь нажал так - получил форматирование под почту, нажал эдак - под IDE. Что-то в этом духе...

Локальный голосовой ввод: Whisper + Ollama на Python