Search
Write a publication
Pull to refresh

Comments 16

Почему не Whisper? Языков было бы больше гораздо.

Whisper пробывал сначала с Whisper но там мой ноут ревел как ракета, а с моделями от Vosk после загрузки, ни какой нагрузки на процессор почти не заметно.

Скачал, запустил, загрузил модель vosk-model-ru-0.42 (~3,5гига на диске). Программа стартует несколько минут и съедает больше 5 гигов оперативки. Программа не умеет обрабатывать аудиофайлы и не имеет русскоязычной версии интерфейса (каюсь, может я не нашел куда жать). К сожалению микрофона под рукой не было, так что сравнить с whisper не получилось. Если вы этой программой пользуетесь в повседневной жизни, поделитесь, пожалуйста, парой удачных практических примеров применения.

Модель https://huggingface.co/artyomboyko/whisper-small-ru-v4

Пространство:

https://huggingface.co/spaces/artyomboyko/whisper

Это мои наработки.

Ещё очень понравилась модель:

https://huggingface.co/openai/whisper-large-v3-turbo

Она от создателей и многоязыковая. Пространства использующие её тоже сможете найти в карточке модели.

Заходите в настройки, и там на вкладку General Settings справа будет пункт Interface Language выбираете любой из более чем 30 языков

Питон и низкое потребление ресурсов - звучит довольно смешно.

>Механизм нечеткого сравнения. Если вы ошиблись в произношении на одну-две буквы или программа не совсем точно распознала фразу, команда все равно будет выполнена. 

А вот тут действительно страшно стало.

Отформатируй диск Z. Поняла вас, форматирую диск С...

Занавес. Не делайте так.

Ну если Вы там создадите скрипт который будет форматировать диск C или любой другой, и настроите программу на запуск этого скрипта то да программа его запустит, ну так Вы сами написали этот скрипт и фактически запустили его. Сама по себе программа ни чего не запускает. Код программы открыт и доступен для ознакомления и сборки на своем ПК.

Питон и низкое потребление ресурсов - звучит довольно смешно.

Задам 3 наводящих вопроса.

  1. Скажите, что в этой системе больше всего потребляет ресурсов: непосредственно интерпретатор Python, PyQt5 или Vosk?

  2. На чём написан PyQt5?

  3. Что в проекте написано непосредственно на Python?

Надеюсь, посыл понятен.

А насчёт механизма нечёткого сравнения: отчасти согласен. При добавлении своего скрипта стоит добавить опцию отклбчения этого механизма, а также обязательно необходимо предоставить возможность создать подтверждение команды

Настройка не четкого сравнения является опциональной, можно установить точность совпадения на 100% и все ни какого не четного сравнения не будет.

На счет производительности у меня загружена модель vosk-model-ru-0.42 она довольно тяжелая в упакованном виде она весит 1,8 гиг, нагрузка на мой процессор а у меня рязань 5600H 1-2 % ну максимум 3 % иногда бывает, мой ноут бук от использования программы ни когда не гудит.

При том что я понимаю что качество распознавание не идеальное, но мне как для того что б не набирать текст в Gemini CLI вполне хватает.

Для macos на m3 есть что-то подобное?

А то чет прям захотелось попробовать управлять компом голосом 😏

Я планирую добавить поддержку Lunix Ubuntu , но под macos  есть такое вроде Встроенное голосовое управление macOS: Это функция, которая позволяет управлять компьютером полностью с помощью голоса. Вы можете открывать приложения, перемещать курсор, прокручивать страницы, и многое другое, просто произнося команды. Эта функция также находится в "Системных настройках" > "Доступность" > "Управление голосом". но и это я не знаю я не проверял у меня нет устройств с macOS

Почему именно PyQt5, а не 6? Подозреваю, что из-за того, что нейронки по умолчанию именно на PyQt5 пишут код.

Если вы только начали, я бы рекомендовал перейти на PyQt6. Мне показался он приятнее. Как минимум из-за того, что там аннотация типов нормально работает во многих местах, где у PyQt5 проблемы.

Если не поленюсь, попробую запустить на Линуксе.

PyQt5 был выбран осознано, для запуска на системах начиная с Windows 7, так как там нет "Голосовой ввод" (Voice typing) или "Диктовка Windows" (Windows Dictation) , на Linux программа без доработки не запустится так как в ней используются пакеты Python типа win32 для взаимодействия с клавиатурой и запуска Windows приложений.

У меня vosk работает на андроид. База голоса 50мбайт. Запускал полноценную на пк, не понравилось, распознавание речи так себе. Лучше Алису настроить на это дело.

В приложении вы можете самостоятельно выбрать какую из имеющуюся моделей распознавания Вы хотите использовать там есть модели по 50мбайт, но также есть модели и по несколько гигабайт. В моем приложении только Вы решаете какого размера модель Вам хочется использовать. понятно что чем больше вес модели чем дольше она будет загружаться но и лучшим будет качество распознавания голоса.

Я и написал, не было там особенного улучшения качества распознавания речи. Думал на базе этого делать большую систему для клиентов, но отказался в силу описанных причин.

Sign up to leave a comment.

Articles