AIgrator Aug 4 2025 at 17:16

Scribe: Управляем ПК голосом. Бесплатно, оффлайн и с открытым кодом

Easy

3 min

31K

Open source * Python * Development for Windows * DIYArtificial Intelligence

From sandbox

+15

Comments 16

ArtyomBoyko Aug 4 2025 at 19:40

Почему не Whisper? Языков было бы больше гораздо.

AIgrator Aug 5 2025 at 18:02

Whisper пробывал сначала с Whisper но там мой ноут ревел как ракета, а с моделями от Vosk после загрузки, ни какой нагрузки на процессор почти не заметно.

Emulyator Aug 4 2025 at 20:14

Скачал, запустил, загрузил модель vosk-model-ru-0.42 (~3,5гига на диске). Программа стартует несколько минут и съедает больше 5 гигов оперативки. Программа не умеет обрабатывать аудиофайлы и не имеет русскоязычной версии интерфейса (каюсь, может я не нашел куда жать). К сожалению микрофона под рукой не было, так что сравнить с whisper не получилось. Если вы этой программой пользуетесь в повседневной жизни, поделитесь, пожалуйста, парой удачных практических примеров применения.

ArtyomBoyko Aug 4 2025 at 22:01

Модель https://huggingface.co/artyomboyko/whisper-small-ru-v4

Пространство:

https://huggingface.co/spaces/artyomboyko/whisper

Это мои наработки.

Ещё очень понравилась модель:

https://huggingface.co/openai/whisper-large-v3-turbo

Она от создателей и многоязыковая. Пространства использующие её тоже сможете найти в карточке модели.

AIgrator Aug 5 2025 at 18:04

Заходите в настройки, и там на вкладку General Settings справа будет пункт Interface Language выбираете любой из более чем 30 языков

Sleuthhound Aug 4 2025 at 22:04

Питон и низкое потребление ресурсов - звучит довольно смешно.

>Механизм нечеткого сравнения. Если вы ошиблись в произношении на одну-две буквы или программа не совсем точно распознала фразу, команда все равно будет выполнена.

А вот тут действительно страшно стало.

Отформатируй диск Z. Поняла вас, форматирую диск С...

Занавес. Не делайте так.

AIgrator Aug 5 2025 at 18:08

Ну если Вы там создадите скрипт который будет форматировать диск C или любой другой, и настроите программу на запуск этого скрипта то да программа его запустит, ну так Вы сами написали этот скрипт и фактически запустили его. Сама по себе программа ни чего не запускает. Код программы открыт и доступен для ознакомления и сборки на своем ПК.

Pubert Aug 7 2025 at 19:23

Питон и низкое потребление ресурсов - звучит довольно смешно.

Задам 3 наводящих вопроса.

Скажите, что в этой системе больше всего потребляет ресурсов: непосредственно интерпретатор Python, PyQt5 или Vosk?
На чём написан PyQt5?
Что в проекте написано непосредственно на Python?

Надеюсь, посыл понятен.

А насчёт механизма нечёткого сравнения: отчасти согласен. При добавлении своего скрипта стоит добавить опцию отклбчения этого механизма, а также обязательно необходимо предоставить возможность создать подтверждение команды

AIgrator Aug 11 2025 at 16:38

Настройка не четкого сравнения является опциональной, можно установить точность совпадения на 100% и все ни какого не четного сравнения не будет.

На счет производительности у меня загружена модель vosk-model-ru-0.42 она довольно тяжелая в упакованном виде она весит 1,8 гиг, нагрузка на мой процессор а у меня рязань 5600H 1-2 % ну максимум 3 % иногда бывает, мой ноут бук от использования программы ни когда не гудит.

При том что я понимаю что качество распознавание не идеальное, но мне как для того что б не набирать текст в Gemini CLI вполне хватает.

exorciste Aug 6 2025 at 08:41

Для macos на m3 есть что-то подобное?

А то чет прям захотелось попробовать управлять компом голосом 😏

AIgrator Aug 6 2025 at 12:25

Я планирую добавить поддержку Lunix Ubuntu , но под macos есть такое вроде Встроенное голосовое управление macOS: Это функция, которая позволяет управлять компьютером полностью с помощью голоса. Вы можете открывать приложения, перемещать курсор, прокручивать страницы, и многое другое, просто произнося команды. Эта функция также находится в "Системных настройках" > "Доступность" > "Управление голосом". но и это я не знаю я не проверял у меня нет устройств с macOS

IvanZuev78 Aug 7 2025 at 04:15

Почему именно PyQt5, а не 6? Подозреваю, что из-за того, что нейронки по умолчанию именно на PyQt5 пишут код.

Если вы только начали, я бы рекомендовал перейти на PyQt6. Мне показался он приятнее. Как минимум из-за того, что там аннотация типов нормально работает во многих местах, где у PyQt5 проблемы.

Если не поленюсь, попробую запустить на Линуксе.

AIgrator Aug 7 2025 at 12:52

PyQt5 был выбран осознано, для запуска на системах начиная с Windows 7, так как там нет "Голосовой ввод" (Voice typing) или "Диктовка Windows" (Windows Dictation) , на Linux программа без доработки не запустится так как в ней используются пакеты Python типа win32 для взаимодействия с клавиатурой и запуска Windows приложений.

aladkoi Aug 10 2025 at 04:58

У меня vosk работает на андроид. База голоса 50мбайт. Запускал полноценную на пк, не понравилось, распознавание речи так себе. Лучше Алису настроить на это дело.

AIgrator Aug 10 2025 at 07:19

В приложении вы можете самостоятельно выбрать какую из имеющуюся моделей распознавания Вы хотите использовать там есть модели по 50мбайт, но также есть модели и по несколько гигабайт. В моем приложении только Вы решаете какого размера модель Вам хочется использовать. понятно что чем больше вес модели чем дольше она будет загружаться но и лучшим будет качество распознавания голоса.

aladkoi Aug 10 2025 at 09:15

Я и написал, не было там особенного улучшения качества распознавания речи. Думал на базе этого делать большую систему для клиентов, но отказался в силу описанных причин.