kedobear Feb 25 2013 at 16:12

Pocketsphinx. Распознавание речи и голосовое управление в Linux

11 min

129K

Configuring Linux *

Tutorial

+54

Comments 37

Stvad Feb 25 2013 at 17:27

Спасибо что написали эту статью а то я так и не собрался :D. От себя хочу добавить: этим летом в рамках GSoC я добавил поддержку использования Sphinx, как бэкенда для Simon (раньше он поддерживал толькко упомянутый вами Julius), который позволяет реализовать голосовое управление на довольно сложном уровне. Поддержка sphinx присутствует начиная с версии 0.4.
Думаю будет полезно упомянуть Simon в статье:). Также если у кого либо есть вопросы относительно него — могу постараться ответить:)

kedobear Feb 26 2013 at 10:03

Напишите обзор Simon, покажите, как он работает с Julius и Sphinx, думаю, будет интересно.

Tairesh Feb 25 2013 at 17:36

Год 2015.

Видишь человека в Google Glass, кричишь «Поиск картинок, лошади **утся, показать все результаты» и убегаешь.

Забегаешь в офис к конкурентам, у которых голосовое управление на компах, кричишь «Судо эрэм минус эрэф хоум» и убегаешь.

А статья интересная, спасибо!

klikalka Feb 25 2013 at 17:58

Да, но, как уже писалось, GG, скорее всего, будут привязываться к голосу владельца (возможно, функция отключаемая) и, вероятно, микрофон для команд будет направленный, а для записи будет использоваться другой, да и кодовое слово никто не отменял.

Ну а с офисом конкурентов — либо заметно позже 2015, либо, опять же, привязка к голосу, тогда вообще никогда)

Firues Jul 30 2016 at 21:55

GG умер. 2016 год. :(

kedobear Jul 31 2016 at 03:40

Через год оживет в реинкарнации, имхо.

kedobear Jul 10 2017 at 18:46

Не ожил :(

AllexIn Sep 24 2017 at 09:11

GG умер, да здравствует HoloLens!

olololog Feb 25 2013 at 19:44

Не-не-не. ok glass, google goatse

bask Feb 26 2013 at 10:52

Подготовка чемпиона мира по бегу?

moscow_beast Feb 26 2015 at 10:43

Год 2015.

Чего-то пока не ходят люди в гугл-глассах.

G3kas Feb 25 2013 at 18:01

>В 1997-ом году Лукьяненко пророчил для десктопа сочетание CLI и голосового управления
пока он там пророчил, такие программы во всю тестировались и обучались делать, то что просит пользователь. к сожалению не помню названия.

unwrecker Feb 25 2013 at 19:18

OS/2 4.0 имела встроенное голосовое управление, сносно работавшее на 486 процессоре. Шел 1996 год.

nioliz Feb 26 2013 at 13:23

Гонево. Pentium-90 был в минимальных требованиях, но работало на нем хреново. Нормально работало где-то начиная с Pentium-200 и >32МБ оперативки.

А вот на счет 96 года, это правда.

unwrecker Feb 26 2013 at 13:30

AMD 5x86 160, хоть формально и являлся представителем 486 архитектуры, но в задачах не связанных с математикой легко уделывал P90.

У меня был именно такой, и голосовые команды вполне распознавались и выполнялись. О наборе текста под диктовку, конечно, можно было забыть.

nioliz Feb 27 2013 at 04:01

Любой первый Pentium это 586. Любой 586 вне зависимости от вендора подходил. Про то, что 160 МГц лучше 90 в математике я не спорю :)

unwrecker Feb 27 2013 at 06:30

Нееее. В действительности всё не так как на самом деле :) 5x86 — это не 586, а маркетинг. И 160 в математике не лучше чем 90, а в точности наоборот, ибо в пнях был лучший по тем временам сопроцессор.

kedobear Feb 25 2013 at 19:50

Я имел в виду тот факт, что в книге Лукьяненко технология голосового управления стала наряду с интерфейсом командной строки основным средством ввода, чего в жизни, как мы знаем, не случилось.

mva Feb 27 2013 at 07:38

ну… смотря где :)

BasicWolf Feb 25 2013 at 18:37

Спасибо огромное автору, вы как будто мои мысли угадали, когда я вчера с дочуркой на правой руке пытался код набирать левой :)

skobkin Feb 26 2013 at 04:50

Вы мне напомнили это видео.

Aux Feb 25 2013 at 21:07

Пару часов танцев с бубнами в консоли? Да уж, юзер френдли… По-моему всё настолько печально, что дальше некуда.

Stvad Feb 25 2013 at 21:10

Опять же советую обратить внимание на Simon:)

Aux Feb 25 2013 at 21:43

Вроде цель статьи была показать, что с голосовым управлением всё не так глухо. Ну знаете ли, сравнивая с голосовым управлением в Android, где так же есть полноценное распознавание речи, плюс оффлайновые данные для русского весят всего 20 мегов и ничего не надо треннировать и всё само работает искаропки и работает на железе заведомо слабее PC… Вобщем, Pocketsphinx — это глухо, очень глухо. Я бы сказал — epic fail. Такому проекту просто нет места под Солнцем (: Проекту уже более десяти лет, а он всё ещё в стадии зародыша. Ну уж извините…

Stvad Feb 25 2013 at 21:52

Сфинкс программа не для конечного пользователя, а скорее фреймворк для построения этих програм. В этом качестве он успешно используется и для програм на Android & iOS (http://habrahabr.ru/post/170075/ &etc). И для десктопа (в частности Simon, к которому относилось мое замечание, и информацию о котором вы, вероятно не смотрели:) )
Для сфинкса также существует масса уже готовых языковых и акустических моделей, доступных для скачивания с их сайта.
Самостоятельно создание и адаптация предпологается только для спецефических целей.

Aux Feb 25 2013 at 21:54

Из статьи это не ясно абсолютно. Вобщем, мои претензии к автору тогда (:

kedobear Feb 26 2013 at 10:00

А чего вы хотите от Сфинкса? Нажать одну кнопку, и чтобы после этого все работало и могло распознать «Войну и мир»? Пишите сами хороший гуй со всеми перделками или смотрите в сторону внезапно подвернувшегося Simon (действительно нужно протестировать).
Вы говорите, что на Андроиде все работает из коробки. Берем Сфинкс, берем готовые модели и словари и работаем, в чем проблема? Другой вопрос в том, что готовые модели и словари могут не устроить пользователя из-за недостатка или несоответствия лексики.
Тренировать не обязательно, это просто позволяет улучшить качество.
А скорость работы — почему вы с такой претензией отнеслись к Сфинксу? Лично вы работали с ним?

si1v3r Feb 26 2013 at 13:28

Почти офтопик — а путевый микрофон для этого дела не подскажите? Чтобы всю комнату средних размеров слышал.

evtomax Mar 18 2013 at 08:08

Почти любой электретный микрофон + самодельный предусилитель, например такой cxo.lv/index.php/solder/micamp/111-micamp01

past Oct 2 2013 at 08:20

Подскажите, можно ли где-то почитать подробнее про адаптацию для русского языка?

kedobear Oct 3 2013 at 15:30

Этот форум читали?

pelment Mar 25 2014 at 11:40

Добрый день!
Я пытаюсь запустить pocketsphinx_continuous c созданными мною lm и dic файлами, но программа требует определить еще и hmm или mdef, выдает error. Пытался запускать с уже имеющимися моделями, но у них другие фонемы, и от этого сыплются error-ы. Каким образом можно получить hmm или как обойти эти требования?

kedobear Mar 25 2014 at 18:03

-hmm — путь к акустической модели, читайте выше. Естественно, без неё ничего работать не будет.

pelment Mar 26 2014 at 08:37

Получается, что ru4sphinx делает словарь только для определенной акустической модели? С имеющимися у меня (msu_ru_nsh и wsj1) не работает — так как в словаре оказываются фонемы, которые не используются в этих моделях.

begemot_cat Nov 4 2014 at 20:12

Большое Спасибо за статью уважаемый!
Какую модель посоветуете использовать для распознавания русской речи? Ту что с voxforge? или Вы знаете какой то более полный словарь? В проекте ru4sphinx есть еще какой то словарь приличного размера. Как то можно их объединить для улучшения распознавания?

P.S. Тем у кого при запуске pocketsphinx_continuous, вылетает ошибка:
Failed to calibrate voice activity detection
1) Запишите звуковой файл снова, сделайте в начале паузу 4 секунды а затем уже начинайте диктовать.
2) Попробуйте снова адаптировать акустическую модель под себя

begemot_cat Nov 4 2014 at 22:09

Могли бы Вы написать гид по адаптации акустической модели скачанной с voxforge?
Какой текст использовать? Как делать?

begemot_cat Nov 4 2014 at 23:20

Для русской акустической модели