Comments 26
по-моему у тебя ссылочка на гитхаб не работает)
Буфер обмена. Вставка текста через Ctrl+V / Cmd+V требует положить текст в буфер обмена. Но там может быть что-то важное.
Именно на виндах из коробки есть на диво полезное сочетание win+V и журнал буфера обмена. Советую.
Готовых решений, которые бы устроили, сходу не нашёл.
Возможно просто и не хотели подсознательно?
https://github.com/cjpais/Handy
Press a shortcut, speak, and have your words appear in any text field.
Да сейчас такие вещи на вайбкодить не сложно, и довольно интересно.
+1 за Handy. Нашелся багос, разве что, что при запущенном приложении при активном скролле мышкой (какая-нибудь logitech MX Anywhere 3 с вечным скроллом) винда начинает лагать - лечится сменой api ввода в экспериментальных настройках.
Разве что модели без впн не качаются. Из мультиязычных Parakeet V3 работает на процессоре очень хорошо. И в 0.7.10 завезли чисто русскоязычную модель. В ноуте есть ryzen 7840h. А на другом ноуте с rtx3060 и whisper large вполне гонять
А он тоже умеет "убрать слова-паразиты и "окультурить" текст?"
Мне в статье идея связки с LLM понравилась.
...что именно делает LLM, целиком определяется промптом. Дефолтный убирает слова-паразиты, расставляет пунктуацию, поправляет регистр. Но через кастомный промпт можно переформатировать текст в email, перевести на другой язык, привести к стилю документации — короче, как настроите. Оба шага работают локально.
Вполне возможно, что вы отчасти правы. Велосипеды, там, где это не вредно для дела, я люблю и этого не стесняюсь. Если речь о работе, то критерии, очевидно, будут иными. Но конкретно в данном случае есть как минимум один важный для меня лично контраргумент. Мысль была в том, чтобы реализовать push-to-talk максимально прямо и тупо — так, чтобы код можно было прочитать за 5 минут. Возможно, я параноик, но, посмотрев на Handy, я подумал: «либо мне нужно читать весь этот код, либо психологически для меня это то же самое, что облачный сервис».
Пользуюсь Whispering, работает отлично
Буквально на днях себе создал аналогичное приложение, правда пока под макос на М1. Сделано на расте, т.к., имхо, питон слишком плох для этого, попробовал собрать и под винду, но там надо баги править, чуть позже добавлю ) скачать можно https://boosty.to/whisper_typer , туда же и для остальных ОС буду выкладывать (хочу для стимдека собрать)
Прекрасное решение! А для смартфонов что-то подобное возможно?
Это не подходит даже для большинства ПК. Виспер и ллм требуют видеокарту с большим количеством видеопамяти.
А что конкретно нужно для смартфона? Чем не устраивает например клавиатура от яндекса, в ней есть распознавание и облагораживание текста, да и в стандартной клавиатуре от гугла оно есть.
Как раз сегодня прикрутил к своему проекту speech_to_text - пакет распознавания речи. Без особых заморочек.
Я себе сделал свою штуку для андроида. Ибо решал свою проблему. Люблю в тг, например, общаться короткими ГС до 20 секунд. Но понимаю, как утомительно может быть слушать кучу ГС, а транскрипция от ТГ либо заставляет ждать, либо у собеседника нету премиума. Сделал для себя и для родного человека. Пользуюсь - радуюсь.








Ну и да, чисто для себя я еще сделал деление текста по абзацам, потому что это чисто мой стиль писания, когда есть одна пустая строка между предложениями. Но сейчас я у себя ее отключил. НУ и еще функционал касательно считывания эмоциональности.. Я записываю голос из корня, поэтому могу в два потока делать обработку. И текст ТАМ, ГДЕ НУЖНО, делается эмоциональным, если он соответствуетю
Введите текст
faster-whisper самое неудачное решение, очень плохо распознает русскую речь. Для этого лучше использовать gigaam
Спасибо, посмотрю. Цель была сделать тулу чтобы "уже сегодня" работала, и могу сказать что меня вполне устроило качество распознавания. По крайней мере для нужд промтинга, там где все равно нейронка потом что имелось ввиду, вполне юзабельно.
С учётом того, как вы уже решаете UX‑мелочи, не думали добавить лёгкий слой кастомизации «под контекст окна» — например, разные LLM‑промпты/языки/форматирование в зависимости от активного приложения (чат, IDE, почта), чтобы не переключать настройки руками каждый раз?
Тут вопрос в том чтобы скрипт оставался небольшим, иначе опять же потеряется смысл проекта. Но идея такая посещала. Только я бы не шел в сторону implicit зависимости от окна (легко наступить на грабли). Скорее это может быть несколько профайлов на разных хоткеях. Пользователь нажал так - получил форматирование под почту, нажал эдак - под IDE. Что-то в этом духе...
Локальный голосовой ввод: Whisper + Ollama на Python