CyberexTech 18 июн в 11:01

программная

Простой

16 мин

8.1K

Блог компании Timeweb CloudNatural Language Processing*Python*Голосовые интерфейсы*Программирование*

Кейс

+53

Комментарии 30

Alyoshka1976 18 июн в 11:21

Я сделал похожую систему с распознаванием и генерацией голоса, но на старом ноутбуке под Linux - одного ключевого слова оказалось маловато, частые ложные срабатывания, ожидание классического "СЛУШАЙ ИМЯ_АССИСТЕНТА" работает лучше.

CyberexTech 18 июн в 11:47

Ложных срабатываний не наблюдал, были события когда в стороннем источнике звука (просмотр ютуб или фильма) присутствовало имя Альфа или что-то похожее(Алиса например), тогда да, срабатывало. В крайнем случае, можно увеличить порог процента схожести строки, чтобы избежать ложных срабатываний.

Alyoshka1976 18 июн в 13:50

Именно такие срабатывания я и обозвал "ложными", ютуб-тестирование их хорошо провоцирует.

CyberexTech 18 июн в 13:57

Очень редкие события, пару раз за год использования.

grumegargler 18 июн в 16:24

Интересно, у нас другой опыт. Разрабатывали для бизнеса голосового помощника (на raspberry pi 5), и быстро пришли к тому, что вся эта затея будет иметь смысл только при условии максимально качественного распознавания как ключевого слова, так и всей речи. К сожалению бесплатные решения, пришлось заменить на коммерческие. Тот же porcupine например, существенно лучше показывает себя в зашумленных помещениях (цех, гараж), да и в офисе откликается в 9 случаев из 10, в то время, как всё остальное, что пробовали, в лучшем случае 7-8 из 10.

CyberexTech 18 июн в 17:34

Тут нужно понимать, что в статье речь идет о DIY проекте и каких-то супер возможностях, как в коммерческих продуктах, речи не идет. Само собой, что в коммерческих проектах не стоит применять описанные в статье решения, так же стоит учитывать, что при коммерческой разработке бюджет "шире" и команда больше.

grumegargler 18 июн в 17:53

Несомненно. Я оставил свой комментарий лишь по той причине, что после прочтения вашей по настоящему полезной статьи, у неискушенного читателя может сложиться обманчивое впечатление, что всё просто, всё работает. Отчасти это так, но и нюансы есть, которые могут выйти на первый план, если задача будет немного отличаться. Воспринимайте это просто как дополнение, а не контраргументы.

Alyoshka1976 18 июн в 14:04

P.S. В качестве сценариев, которых нет у Вас в списке, можно добавить отправку заметок в Телеграм (на имя созданного там бота) (хотя ассистент в моей системе ограничен тем, что преобразует в текст только те слова, которые есть в словаре STT, но бывает удобно) и установка таймера (на команду "три", например, ждет три минуты и проигрывает мелодию).

CyberexTech 18 июн в 14:20

Да, здесь большие возможности по расширению функционала. Можно и в Гугл календарь добавлять заметки и тд/тп/

chipsetx86 18 июн в 11:30

Отличная статья, молодец!

CyberexTech 18 июн в 11:48

Спасибо за поддержку!

uhf 18 июн в 11:45

Где бы готовое железо взять? Может прошиваются уже какие-нибудь серийные колонки?

CyberexTech 18 июн в 11:52

Это мой эксперимент, цель которого проверить возможность разработки голосового ассистента для умного дома на дешевом железе. В предыдущей статье я описал аппаратную реализацию: https://habr.com/ru/articles/772080/

В теории должно работать на любых устройствах на базе Linux, главное чтобы хватило производительности системных ресурсов.

uhf 18 июн в 11:59

Спасибо, я уже прочел вашу предыдущую статью. Мне просто не очень хочется "колхозить" корпус, травить плату, и т.д

Вот только что идея появилась: взять какую-нибудь Яндекс-Алису, вынуть из нее все кишки, вставить esp8266 для кнопок и светодиодов, bt-модуль для динамика и микрофона, ну и всё. Всю обработку делать на другом одноплатнике, или мини-пк, или на домашнем сервере, тут уже как нравится. Зато ограничений не будет, хоть LLM там крути на видеокарте. Надо будет попробовать.

CyberexTech 19 июн в 03:40

Можно заказать печать корпуса и изготовление платы, благо сейчас это не проблема. И никакого "колхоза".

Olegun 18 июн в 12:12

Как дела с безопасностью? Слушается только хозяина или всех? Телевизор? Радио?

CyberexTech 18 июн в 12:33

Что вы имеете ввиду под безопасностью? Если речь идет о приватности, то все процессы выполняются локально. Я не ставил цели распределение ролей с помощью идентификации голоса. Слушает всех, кто произнесет её имя.

Pol1mus 18 июн в 12:59

Вместо silero попробуй piper tts, работает лучше и быстрее, цифры читать умеет.

CyberexTech 18 июн в 13:55

Там модели не очень на мое восприятие (

Pol1mus 18 июн в 16:32

Если задача выживать в бункере не стоит то всё сильно упрощается. Бесплатное распознавание голоса есть у гугла и.. гугла(gemini), работает почти идеально. Бесплатный tts есть у гугла и микрософта, без заморочек с цифрами и сокращениями, и вообще без заморочек.

Бесплатные большие ллм у groq и google gemini, у них заморочки только с проксями.

Бесплатные маленькие ллм - openrouter, там дают ллама3-8б итп мелочевку.

-4

smart_alex 18 июн в 16:46

Тут вся фишка в том, чтобы отвязаться от гуглов, яндексов и прочих подобных.

CyberexTech 18 июн в 17:37

Приватность и изоляция от интернет зависимых сервисов.

hMartin 18 июн в 22:23

Я натыкался на такое DIY решение: https://heywillow.io/

Чувак пилит открытую замену Алексе, но вроде она неразговорчивая, команды выполняет, а TTS нет

CyberexTech 19 июн в 03:18

Насколько я понял, аппаратная часть его проекта построена на базе esp32, сомнительное решение, ну Ок. Такие вещи лучше строить на базе железа, где есть NPU или графическое ядро. В моем проекте есть возможность использовать API Vulkan встроенного графического ядра, что обеспечивает значительное ускорение работы моделей.

WNeZRoS 19 июн в 13:06

У вас получилось запустить Vulkan на Orange Pi Zero 2W? Как именно?
В Mesa есть рабочее ускорение только для OpenGL, а Vulkan через llvmpipe драйвер это не ускорение, а замедление.

CyberexTech 21 июн в 04:22

Я еще не пробовал, но драйвер установлен. Если у вас работает OpenGL, то можно и его использовать. А так на CPU нормально работает.

uvlad7 19 июн в 04:51

Для распознавания можно указать список возможных слов или фраз:

model = Model(model_name="vosk-model-en-us-0.22-lgraph")

trigger_words = ["please enter the number you hear", "please type the numbers you hear"]
numbers = ["one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "zero"]

# You can also specify the possible word or phrase list as JSON list,
# the order doesn't have to be strict
rec = KaldiRecognizer(model,
    wf.getframerate(),
    f'[{", ".join(map(lambda s: json.dumps(s), trigger_words + numbers))}, "[unk]"]')

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(json.loads(rec.Result())["text"], end=', ')

print(json.loads(rec.FinalResult())["text"])

Так можно избавиться от необходимости подбирать похожие команды