Обновить

Комментарии 15

по-моему у тебя ссылочка на гитхаб не работает)

ага, вместо - нужно _

@atatchin

Буфер обмена. Вставка текста через Ctrl+V / Cmd+V требует положить текст в буфер обмена. Но там может быть что-то важное.

Именно на виндах из коробки есть на диво полезное сочетание win+V и журнал буфера обмена. Советую.

Да сейчас такие вещи на вайбкодить не сложно, и довольно интересно.

+1 за Handy. Нашелся багос, разве что, что при запущенном приложении при активном скролле мышкой (какая-нибудь logitech MX Anywhere 3 с вечным скроллом) винда начинает лагать - лечится сменой api ввода в экспериментальных настройках.

Разве что модели без впн не качаются. Из мультиязычных Parakeet V3 работает на процессоре очень хорошо. И в 0.7.10 завезли чисто русскоязычную модель. В ноуте есть ryzen 7840h. А на другом ноуте с rtx3060 и whisper large вполне гонять

А он тоже умеет "убрать слова-паразиты и "окультурить" текст?"
Мне в статье идея связки с LLM понравилась.

...что именно делает LLM, целиком определяется промптом. Дефолтный убирает слова-паразиты, расставляет пунктуацию, поправляет регистр. Но через кастомный промпт можно переформатировать текст в email, перевести на другой язык, привести к стилю документации — короче, как настроите. Оба шага работают локально. 

В разделе экспериментальных функций можно включить постобработку ИИшкой с возможностью заданием промпта.

Буквально на днях себе создал аналогичное приложение, правда пока под макос на М1. Сделано на расте, т.к., имхо, питон слишком плох для этого, попробовал собрать и под винду, но там надо баги править, чуть позже добавлю ) скачать можно https://boosty.to/whisper_typer , туда же и для остальных ОС буду выкладывать (хочу для стимдека собрать)

Прекрасное решение! А для смартфонов что-то подобное возможно?

Это не подходит даже для большинства ПК. Виспер и ллм требуют видеокарту с большим количеством видеопамяти.

А что конкретно нужно для смартфона? Чем не устраивает например клавиатура от яндекса, в ней есть распознавание и облагораживание текста, да и в стандартной клавиатуре от гугла оно есть.

Как раз сегодня прикрутил к своему проекту speech_to_text - пакет распознавания речи. Без особых заморочек.

Я себе сделал свою штуку для андроида. Ибо решал свою проблему. Люблю в тг, например, общаться короткими ГС до 20 секунд. Но понимаю, как утомительно может быть слушать кучу ГС, а транскрипция от ТГ либо заставляет ждать, либо у собеседника нету премиума. Сделал для себя и для родного человека. Пользуюсь - радуюсь.



Ну и да, чисто для себя я еще сделал деление текста по абзацам, потому что это чисто мой стиль писания, когда есть одна пустая строка между предложениями. Но сейчас я у себя ее отключил. НУ и еще функционал касательно считывания эмоциональности.. Я записываю голос из корня, поэтому могу в два потока делать обработку. И текст ТАМ, ГДЕ НУЖНО, делается эмоциональным, если он соответствуетю
Введите текст

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации