karazyabko5 ноя 2011 в 10:26

История развития систем распознавания речи: как мы пришли к Siri

5 мин

18K

Искусственный интеллект

Перевод

+35

Комментарии 28

lightcaster 5 ноя 2011 в 12:47

Ну вот, заглянул, а алгоритмов нет. Жаль.

Кстати, а у Сири качество распознавания лучше гуглового?

Eskimo 5 ноя 2011 в 16:14

там нюанса же движок. Сири, это распознавание от nuance, а контекст уже от siri / apple. Ответы от bing, google, wolfram alpha,…

lightcaster 5 ноя 2011 в 18:06

А, тогда понятно. У nuance сильная система.

CLR 5 ноя 2011 в 18:09

На самом деле не совсем понятно, известно что Nuance и Apple сотрудничали и речь возможно даже шла об лицензировании каких-то патентов, так что вероятнее там какой-то гибридный движек.

lightcaster 5 ноя 2011 в 18:17

Может быть. Я был удивлен когда узнал о Siri. Не вопросно-ответной системой. С ней как раз понятно — трансляция в поисковые движки и вольфрам альфу. Просто, система распознавания — довольно сложная штука. Внезапно и неизчего такие системы не появляются.

diamant 5 ноя 2011 в 17:05

Siri понимает меня лучше, чем Гугл на LG p990.
С Гуглом я не мог без ошибок надиктовать трёх слов, а с Siri я могу надиктовывать смс слов в десять.
Говорю я отнюдь не идеально, мой русский акцент слышен за версту.

caffeinum 6 ноя 2011 в 10:31

У меня получается перечатать гугловским голосовым вводом, но нужно очень четко проговаривать, а часто это лень. Я оправдываю его тем, что это еще бета))

BOOMik 6 ноя 2011 в 18:10

Еще это сильно зависит от качества микрофоно, но распознавание Гуглом уже заметно улучшилось, раньше половину слов не понимал, а теперь большинство понимает, хоть тоже произношение не идеал.
Плюс недавно появилась возможность персонально подстраиваться под владельца, что должно улучшить поиск.

G3N1USS 6 ноя 2011 в 01:37

По-моему, статья ни о чем.

anyxem 5 ноя 2011 в 14:37

И опять Apple создала культ. Теперь ждем заголовки: «Блаблабла — убийца Siri», или что-то в таком духе.

noma4i 5 ноя 2011 в 23:01

Бери шире, будут орать о патентах, «мол запатентовали какой-то движок распознования речи. Аппл еще бы колесо запатентовали!!!111!».

VasilioRuzanni 6 ноя 2011 в 10:09

Ждем с распростертыми объятиями. Apple сделала отличную вещь, двинув технологию в массы. Процесс пошел, через какое-то время, телефон с распознаванием речи будет самим собой разумеющимся, и если у кого-то этого не будет — он просто проиграет конкуренцию. В результате мы, как потребители, только выиграем. «Убийцы» только привлекут внимания к теме, что зэр гут.

НЛО прилетело и опубликовало эту надпись здесь

Sardar 5 ноя 2011 в 16:06

Есть какое-то нехорошее предчувствие, что любое осмысленное применение распознавания голоса уже кем то запатентовано… Обычно все это патентуется до того, как придут реальные технологии.

beeruser 5 ноя 2011 в 17:18

Оруэлл о таком и не мечтал. Мало того, что анализируя поисковой запрос, Большой Брат знает что Петя захотел увеличить себе член, так теперь ББ всегда с тобой и можно с ним поговорить по душам =)

В DeuxEx 2 был автомат NG Resonance с которым нужно было поболтать, так вот он ещё и стучал спецслужбам об услышанном. Думается что это почти уже реальность.

Шаг №2 — добавить в Siri список друзей. Тогда он/а/о будет аккумулировать инфу определённого круга.
Например.
Вася «Siri, видел по пути на работу Петю. Что-то он не радостный»
Siri «Скажу по секрету, Петя вчера провёл 35минут в поисках вакуумного удлинителя члена но на прошлой неделе он пропил остатки зарплаты в баре „Голубая луна“
Только поклянись что никому не расскажешь»
Вася «Мамой клянусь»
Siri «Ok»

IT_Tux_Droid 5 ноя 2011 в 17:21

gunya 5 ноя 2011 в 18:13

>Windows Speech Recognition и голосовые команды OS X были интересными, но недостаточно точными и удобными

Пусть тут полежит

НЛО прилетело и опубликовало эту надпись здесь

Leksisi 5 ноя 2011 в 18:25

Интересно, а программы распознавания музыки (типа shazam) работают по сходному принципу?

mikhanoid 6 ноя 2011 в 05:58

Скорее всего. Может, конечно, есть какие-нибудь новые Секретные Наработки в этом деле, но научный state of the art распознавания звуковых последовательностей — это работа со скрытыми цепями Маркова (кстати, методика появилась давно, вопрос был только в обучении на больших базах для точности). Ничего специального именно про распознавание музыки, вроде, нет.

Enrey 6 ноя 2011 в 06:17

Нет, системы распознавания музыки используют acoustic fingerprints.

Yakhnev 6 ноя 2011 в 08:20

То есть вы считаете, что марковские модели не попадают под акустические отпечатки? Прежде чем давать ссылку на то, что любой может найти за минуту, стоит все-таки подумать.

Enrey 6 ноя 2011 в 22:11

По крайней мере в статье ссылок на них не заметил. М.б. тогда пруфлинк?

Yakhnev 7 ноя 2011 в 11:36

На что пруфлинк? На то, что при распознавании речи используется вся перечисленная в acoustic fingerprints информация и дальше уже статистический аппарат вроде HMM? Вы так говорите, как будто сами написали уникальные чудо-признаки поиска музыка, на википедии просто общие слова «often exploited by audio fingerprintsю...»