Обновить

Комментарии 28

по-моему у тебя ссылочка на гитхаб не работает)

ага, вместо - нужно _

@atatchin

упс, спасибо, поправил

Буфер обмена. Вставка текста через Ctrl+V / Cmd+V требует положить текст в буфер обмена. Но там может быть что-то важное.

Именно на виндах из коробки есть на диво полезное сочетание win+V и журнал буфера обмена. Советую.

Да сейчас такие вещи на вайбкодить не сложно, и довольно интересно.

+1 за Handy. Нашелся багос, разве что, что при запущенном приложении при активном скролле мышкой (какая-нибудь logitech MX Anywhere 3 с вечным скроллом) винда начинает лагать - лечится сменой api ввода в экспериментальных настройках.

Разве что модели без впн не качаются. Из мультиязычных Parakeet V3 работает на процессоре очень хорошо. И в 0.7.10 завезли чисто русскоязычную модель. В ноуте есть ryzen 7840h. А на другом ноуте с rtx3060 и whisper large вполне гонять

а есть ли аналог Handy но с поддержкой openAI API?

Т.к. у меня на компьютере нет GPU, грузить процессор не хочу. Зато на локальном сервере есть GPU

Кстати, хорошая идея, добавлю в свою тулу тоже. Кода минимум а толку довольно много будет.

А он тоже умеет "убрать слова-паразиты и "окультурить" текст?"
Мне в статье идея связки с LLM понравилась.

...что именно делает LLM, целиком определяется промптом. Дефолтный убирает слова-паразиты, расставляет пунктуацию, поправляет регистр. Но через кастомный промпт можно переформатировать текст в email, перевести на другой язык, привести к стилю документации — короче, как настроите. Оба шага работают локально. 

В разделе экспериментальных функций можно включить постобработку ИИшкой с возможностью заданием промпта.

Вполне возможно, что вы отчасти правы. Велосипеды, там, где это не вредно для дела, я люблю и этого не стесняюсь. Если речь о работе, то критерии, очевидно, будут иными. Но конкретно в данном случае есть как минимум один важный для меня лично контраргумент. Мысль была в том, чтобы реализовать push-to-talk максимально прямо и тупо — так, чтобы код можно было прочитать за 5 минут. Возможно, я параноик, но, посмотрев на Handy, я подумал: «либо мне нужно читать весь этот код, либо психологически для меня это то же самое, что облачный сервис».

Да, проектов куча и это факт. И помощь в коде - однозначно существует, но действительно интересно, так как реализовать можно по разному. Думаю, что автор не отрицает существование альтернатив, просто подошёл к выбору с позиции "мне нужно прямо сейчас и так, как я хочу". Он полез в детали, которые часто остаются за кадром. И atatchin добавил, например, пребуфер и всякое для очистки, восстановления и так далее. Данные часто теряются и это без опыта при вайбкоде можно упустить.

Например, для русского языка я нашёл для себя очень удобную модель antony66/whisper-large-v3-russian, которую можно запустить даже на старом смартфоне в termux (но последнее это вопрос, конечно, надо оно так кому?))). И в коде есть механизм, чтобы любой мог подставить свою.

Фраза «которые бы устроили» здесь ключевая. Он собрал именно то, что устроило его, с понятным кодом, без лишней "магии". И поделился, чтобы другие могли взять за основу или подсмотреть интересные приёмы. Так что, наверное, не столько "не нашёл готовых", сколько "решил сделать по-своему".

И, пока готовил ответ, почитал про Handy. Оказалось, у него тоже есть пребуфер) но и проект более продвинутый (графический интерфейс, поддрежка CPU, удаление шума, ...). Это готовый продукт для широкого круга пользователей, которым нужен удобный интерфейс и коробочная поддержка разных платформ. Спору нет. Но подход автора статьи - это уже инструмент для тех, кто хочет иметь полный контроль над каждой деталью.

Ещё добавлю, что для локальных целей gemma3, на мой взгляд, самая умная из всех, что тестировал за три года - в частности нравится версия 27b. Тем более после обновления Ollama очень выручает оптимизация памяти. Так, у меня для проектов 4 GPU от NVIDIA, но с осени 2025 две из них не поддерживаются производителем (серия 10) и gemma3:27b уже начинала тормозить, залезая в обычный RAM. Теперь Ollama позволяет запускать её всего на 32Gb и скорость и качество ответов не теряется. НО! Для редакции текста я бы использовал что-то значительно легче.

Пользуюсь Whispering, работает отлично

Буквально на днях себе создал аналогичное приложение, правда пока под макос на М1. Сделано на расте, т.к., имхо, питон слишком плох для этого, попробовал собрать и под винду, но там надо баги править, чуть позже добавлю ) скачать можно https://boosty.to/whisper_typer , туда же и для остальных ОС буду выкладывать (хочу для стимдека собрать)

спасибо, а nVidia parakeet смотрели? вроде она по всем параметрам лучше Whisper.

Прекрасное решение! А для смартфонов что-то подобное возможно?

Это не подходит даже для большинства ПК. Виспер и ллм требуют видеокарту с большим количеством видеопамяти.

На Macbook Air M3 16GB очень юзабельно, даже сам не ожидал. Не хуже десктопа RTX 5070TI + 64RAM.

А что конкретно нужно для смартфона? Чем не устраивает например клавиатура от яндекса, в ней есть распознавание и облагораживание текста, да и в стандартной клавиатуре от гугла оно есть.

Как раз сегодня прикрутил к своему проекту speech_to_text - пакет распознавания речи. Без особых заморочек.

Я себе сделал свою штуку для андроида. Ибо решал свою проблему. Люблю в тг, например, общаться короткими ГС до 20 секунд. Но понимаю, как утомительно может быть слушать кучу ГС, а транскрипция от ТГ либо заставляет ждать, либо у собеседника нету премиума. Сделал для себя и для родного человека. Пользуюсь - радуюсь.



Ну и да, чисто для себя я еще сделал деление текста по абзацам, потому что это чисто мой стиль писания, когда есть одна пустая строка между предложениями. Но сейчас я у себя ее отключил. НУ и еще функционал касательно считывания эмоциональности.. Я записываю голос из корня, поэтому могу в два потока делать обработку. И текст ТАМ, ГДЕ НУЖНО, делается эмоциональным, если он соответствуетю
Введите текст

спасибо огромное за зас*анные 7 экранов никому не интересными скринами

faster-whisper самое неудачное решение, очень плохо распознает русскую речь. Для этого лучше использовать gigaam

Спасибо, посмотрю. Цель была сделать тулу чтобы "уже сегодня" работала, и могу сказать что меня вполне устроило качество распознавания. По крайней мере для нужд промтинга, там где все равно нейронка потом что имелось ввиду, вполне юзабельно.

...там где все равно нейронка потом разберет, что имелось ввиду

НЛО прилетело и опубликовало эту надпись здесь

Тут вопрос в том чтобы скрипт оставался небольшим, иначе опять же потеряется смысл проекта. Но идея такая посещала. Только я бы не шел в сторону implicit зависимости от окна (легко наступить на грабли). Скорее это может быть несколько профайлов на разных хоткеях. Пользователь нажал так - получил форматирование под почту, нажал эдак - под IDE. Что-то в этом духе...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации