atatchin12 мар в 15:16

Локальный голосовой ввод: Whisper + Ollama на Python

Простой

3 мин

12K

Python * Искусственный интеллект

Кейс

Из песочницы

+13

Комментарии 28

HRYN 12 мар в 15:30

по-моему у тебя ссылочка на гитхаб не работает)

Noizefan 12 мар в 15:38

ага, вместо - нужно _

@atatchin

atatchin 13 мар в 15:26

упс, спасибо, поправил

tsem13 12 мар в 15:32

Буфер обмена. Вставка текста через Ctrl+V / Cmd+V требует положить текст в буфер обмена. Но там может быть что-то важное.

Именно на виндах из коробки есть на диво полезное сочетание win+V и журнал буфера обмена. Советую.

badsynt 12 мар в 15:49

Готовых решений, которые бы устроили, сходу не нашёл.

Возможно просто и не хотели подсознательно?

https://github.com/cjpais/Handy

Press a shortcut, speak, and have your words appear in any text field.

SigiLSF 12 мар в 20:26

Да сейчас такие вещи на вайбкодить не сложно, и довольно интересно.

Bratken 12 мар в 22:14

+1 за Handy. Нашелся багос, разве что, что при запущенном приложении при активном скролле мышкой (какая-нибудь logitech MX Anywhere 3 с вечным скроллом) винда начинает лагать - лечится сменой api ввода в экспериментальных настройках.

Разве что модели без впн не качаются. Из мультиязычных Parakeet V3 работает на процессоре очень хорошо. И в 0.7.10 завезли чисто русскоязычную модель. В ноуте есть ryzen 7840h. А на другом ноуте с rtx3060 и whisper large вполне гонять

asharpaev 13 мар в 20:25

а есть ли аналог Handy но с поддержкой openAI API?

Т.к. у меня на компьютере нет GPU, грузить процессор не хочу. Зато на локальном сервере есть GPU

atatchin 13 мар в 20:26

Кстати, хорошая идея, добавлю в свою тулу тоже. Кода минимум а толку довольно много будет.

WhiteBehemoth 13 мар в 02:15

А он тоже умеет "убрать слова-паразиты и "окультурить" текст?"
Мне в статье идея связки с LLM понравилась.

...что именно делает LLM, целиком определяется промптом. Дефолтный убирает слова-паразиты, расставляет пунктуацию, поправляет регистр. Но через кастомный промпт можно переформатировать текст в email, перевести на другой язык, привести к стилю документации — короче, как настроите. Оба шага работают локально.

maxdev 13 мар в 09:31

В разделе экспериментальных функций можно включить постобработку ИИшкой с возможностью заданием промпта.

atatchin 13 мар в 15:57

Вполне возможно, что вы отчасти правы. Велосипеды, там, где это не вредно для дела, я люблю и этого не стесняюсь. Если речь о работе, то критерии, очевидно, будут иными. Но конкретно в данном случае есть как минимум один важный для меня лично контраргумент. Мысль была в том, чтобы реализовать push-to-talk максимально прямо и тупо — так, чтобы код можно было прочитать за 5 минут. Возможно, я параноик, но, посмотрев на Handy, я подумал: «либо мне нужно читать весь этот код, либо психологически для меня это то же самое, что облачный сервис».

MaskayevSA 23 мар в 05:11

Да, проектов куча и это факт. И помощь в коде - однозначно существует, но действительно интересно, так как реализовать можно по разному. Думаю, что автор не отрицает существование альтернатив, просто подошёл к выбору с позиции "мне нужно прямо сейчас и так, как я хочу". Он полез в детали, которые часто остаются за кадром. И atatchin добавил, например, пребуфер и всякое для очистки, восстановления и так далее. Данные часто теряются и это без опыта при вайбкоде можно упустить.

Например, для русского языка я нашёл для себя очень удобную модель antony66/whisper-large-v3-russian, которую можно запустить даже на старом смартфоне в termux (но последнее это вопрос, конечно, надо оно так кому?))). И в коде есть механизм, чтобы любой мог подставить свою.

Фраза «которые бы устроили» здесь ключевая. Он собрал именно то, что устроило его, с понятным кодом, без лишней "магии". И поделился, чтобы другие могли взять за основу или подсмотреть интересные приёмы. Так что, наверное, не столько "не нашёл готовых", сколько "решил сделать по-своему".

И, пока готовил ответ, почитал про Handy. Оказалось, у него тоже есть пребуфер) но и проект более продвинутый (графический интерфейс, поддрежка CPU, удаление шума, ...). Это готовый продукт для широкого круга пользователей, которым нужен удобный интерфейс и коробочная поддержка разных платформ. Спору нет. Но подход автора статьи - это уже инструмент для тех, кто хочет иметь полный контроль над каждой деталью.

Ещё добавлю, что для локальных целей gemma3, на мой взгляд, самая умная из всех, что тестировал за три года - в частности нравится версия 27b. Тем более после обновления Ollama очень выручает оптимизация памяти. Так, у меня для проектов 4 GPU от NVIDIA, но с осени 2025 две из них не поддерживаются производителем (серия 10) и gemma3:27b уже начинала тормозить, залезая в обычный RAM. Теперь Ollama позволяет запускать её всего на 32Gb и скорость и качество ответов не теряется. НО! Для редакции текста я бы использовал что-то значительно легче.

KazakovDenis 12 мар в 19:07

Пользуюсь Whispering, работает отлично

Swanky 12 мар в 22:58

Буквально на днях себе создал аналогичное приложение, правда пока под макос на М1. Сделано на расте, т.к., имхо, питон слишком плох для этого, попробовал собрать и под винду, но там надо баги править, чуть позже добавлю ) скачать можно https://boosty.to/whisper_typer , туда же и для остальных ОС буду выкладывать (хочу для стимдека собрать)

normal 13 мар в 18:50

спасибо, а nVidia parakeet смотрели? вроде она по всем параметрам лучше Whisper.

Micha1l 12 мар в 23:14

Прекрасное решение! А для смартфонов что-то подобное возможно?

K0Jlya9 13 мар в 03:22

Это не подходит даже для большинства ПК. Виспер и ллм требуют видеокарту с большим количеством видеопамяти.

atatchin 13 мар в 15:28

На Macbook Air M3 16GB очень юзабельно, даже сам не ожидал. Не хуже десктопа RTX 5070TI + 64RAM.

K0Jlya9 13 мар в 03:27

А что конкретно нужно для смартфона? Чем не устраивает например клавиатура от яндекса, в ней есть распознавание и облагораживание текста, да и в стандартной клавиатуре от гугла оно есть.

monowar 13 мар в 07:02

Как раз сегодня прикрутил к своему проекту speech_to_text - пакет распознавания речи. Без особых заморочек.

Daxifl 13 мар в 08:51

Я себе сделал свою штуку для андроида. Ибо решал свою проблему. Люблю в тг, например, общаться короткими ГС до 20 секунд. Но понимаю, как утомительно может быть слушать кучу ГС, а транскрипция от ТГ либо заставляет ждать, либо у собеседника нету премиума. Сделал для себя и для родного человека. Пользуюсь - радуюсь.

Ну и да, чисто для себя я еще сделал деление текста по абзацам, потому что это чисто мой стиль писания, когда есть одна пустая строка между предложениями. Но сейчас я у себя ее отключил. НУ и еще функционал касательно считывания эмоциональности.. Я записываю голос из корня, поэтому могу в два потока делать обработку. И текст ТАМ, ГДЕ НУЖНО, делается эмоциональным, если он соответствуетю
Введите текст

test4354545 15 мар в 15:45

спасибо огромное за зас*анные 7 экранов никому не интересными скринами

aladkoi 13 мар в 11:45

faster-whisper самое неудачное решение, очень плохо распознает русскую речь. Для этого лучше использовать gigaam

atatchin 13 мар в 15:30

Спасибо, посмотрю. Цель была сделать тулу чтобы "уже сегодня" работала, и могу сказать что меня вполне устроило качество распознавания. По крайней мере для нужд промтинга, там где все равно нейронка потом что имелось ввиду, вполне юзабельно.

atatchin 13 мар в 16:09

...там где все равно нейронка потом разберет, что имелось ввиду

НЛО прилетело и опубликовало эту надпись здесь

atatchin 13 мар в 23:10

Тут вопрос в том чтобы скрипт оставался небольшим, иначе опять же потеряется смысл проекта. Но идея такая посещала. Только я бы не шел в сторону implicit зависимости от окна (легко наступить на грабли). Скорее это может быть несколько профайлов на разных хоткеях. Пользователь нажал так - получил форматирование под почту, нажал эдак - под IDE. Что-то в этом духе...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий