Comments 16
Почему не Whisper? Языков было бы больше гораздо.
Скачал, запустил, загрузил модель vosk-model-ru-0.42 (~3,5гига на диске). Программа стартует несколько минут и съедает больше 5 гигов оперативки. Программа не умеет обрабатывать аудиофайлы и не имеет русскоязычной версии интерфейса (каюсь, может я не нашел куда жать). К сожалению микрофона под рукой не было, так что сравнить с whisper не получилось. Если вы этой программой пользуетесь в повседневной жизни, поделитесь, пожалуйста, парой удачных практических примеров применения.
Модель https://huggingface.co/artyomboyko/whisper-small-ru-v4
Пространство:
https://huggingface.co/spaces/artyomboyko/whisper
Это мои наработки.
Ещё очень понравилась модель:
https://huggingface.co/openai/whisper-large-v3-turbo
Она от создателей и многоязыковая. Пространства использующие её тоже сможете найти в карточке модели.
Заходите в настройки, и там на вкладку General Settings справа будет пункт Interface Language выбираете любой из более чем 30 языков
Питон и низкое потребление ресурсов - звучит довольно смешно.
>Механизм нечеткого сравнения. Если вы ошиблись в произношении на одну-две буквы или программа не совсем точно распознала фразу, команда все равно будет выполнена.
А вот тут действительно страшно стало.
Отформатируй диск Z. Поняла вас, форматирую диск С...
Занавес. Не делайте так.
Ну если Вы там создадите скрипт который будет форматировать диск C или любой другой, и настроите программу на запуск этого скрипта то да программа его запустит, ну так Вы сами написали этот скрипт и фактически запустили его. Сама по себе программа ни чего не запускает. Код программы открыт и доступен для ознакомления и сборки на своем ПК.
Питон и низкое потребление ресурсов - звучит довольно смешно.
Задам 3 наводящих вопроса.
Скажите, что в этой системе больше всего потребляет ресурсов: непосредственно интерпретатор Python, PyQt5 или Vosk?
На чём написан PyQt5?
Что в проекте написано непосредственно на Python?
Надеюсь, посыл понятен.
А насчёт механизма нечёткого сравнения: отчасти согласен. При добавлении своего скрипта стоит добавить опцию отклбчения этого механизма, а также обязательно необходимо предоставить возможность создать подтверждение команды
Настройка не четкого сравнения является опциональной, можно установить точность совпадения на 100% и все ни какого не четного сравнения не будет.
На счет производительности у меня загружена модель vosk-model-ru-0.42 она довольно тяжелая в упакованном виде она весит 1,8 гиг, нагрузка на мой процессор а у меня рязань 5600H 1-2 % ну максимум 3 % иногда бывает, мой ноут бук от использования программы ни когда не гудит.
При том что я понимаю что качество распознавание не идеальное, но мне как для того что б не набирать текст в Gemini CLI вполне хватает.
Для macos на m3 есть что-то подобное?
А то чет прям захотелось попробовать управлять компом голосом 😏
Я планирую добавить поддержку Lunix Ubuntu , но под macos есть такое вроде Встроенное голосовое управление macOS: Это функция, которая позволяет управлять компьютером полностью с помощью голоса. Вы можете открывать приложения, перемещать курсор, прокручивать страницы, и многое другое, просто произнося команды. Эта функция также находится в "Системных настройках" > "Доступность" > "Управление голосом". но и это я не знаю я не проверял у меня нет устройств с macOS
Почему именно PyQt5, а не 6? Подозреваю, что из-за того, что нейронки по умолчанию именно на PyQt5 пишут код.
Если вы только начали, я бы рекомендовал перейти на PyQt6. Мне показался он приятнее. Как минимум из-за того, что там аннотация типов нормально работает во многих местах, где у PyQt5 проблемы.
Если не поленюсь, попробую запустить на Линуксе.
PyQt5 был выбран осознано, для запуска на системах начиная с Windows 7, так как там нет "Голосовой ввод" (Voice typing) или "Диктовка Windows" (Windows Dictation) , на Linux программа без доработки не запустится так как в ней используются пакеты Python типа win32 для взаимодействия с клавиатурой и запуска Windows приложений.
У меня vosk работает на андроид. База голоса 50мбайт. Запускал полноценную на пк, не понравилось, распознавание речи так себе. Лучше Алису настроить на это дело.
В приложении вы можете самостоятельно выбрать какую из имеющуюся моделей распознавания Вы хотите использовать там есть модели по 50мбайт, но также есть модели и по несколько гигабайт. В моем приложении только Вы решаете какого размера модель Вам хочется использовать. понятно что чем больше вес модели чем дольше она будет загружаться но и лучшим будет качество распознавания голоса.
Scribe: Управляем ПК голосом. Бесплатно, оффлайн и с открытым кодом