На самом деле не совсем понятно, известно что Nuance и Apple сотрудничали и речь возможно даже шла об лицензировании каких-то патентов, так что вероятнее там какой-то гибридный движек.
Может быть. Я был удивлен когда узнал о Siri. Не вопросно-ответной системой. С ней как раз понятно — трансляция в поисковые движки и вольфрам альфу. Просто, система распознавания — довольно сложная штука. Внезапно и неизчего такие системы не появляются.
Siri понимает меня лучше, чем Гугл на LG p990.
С Гуглом я не мог без ошибок надиктовать трёх слов, а с Siri я могу надиктовывать смс слов в десять.
Говорю я отнюдь не идеально, мой русский акцент слышен за версту.
У меня получается перечатать гугловским голосовым вводом, но нужно очень четко проговаривать, а часто это лень. Я оправдываю его тем, что это еще бета))
Еще это сильно зависит от качества микрофоно, но распознавание Гуглом уже заметно улучшилось, раньше половину слов не понимал, а теперь большинство понимает, хоть тоже произношение не идеал.
Плюс недавно появилась возможность персонально подстраиваться под владельца, что должно улучшить поиск.
Ждем с распростертыми объятиями. Apple сделала отличную вещь, двинув технологию в массы. Процесс пошел, через какое-то время, телефон с распознаванием речи будет самим собой разумеющимся, и если у кого-то этого не будет — он просто проиграет конкуренцию. В результате мы, как потребители, только выиграем. «Убийцы» только привлекут внимания к теме, что зэр гут.
Есть какое-то нехорошее предчувствие, что любое осмысленное применение распознавания голоса уже кем то запатентовано… Обычно все это патентуется до того, как придут реальные технологии.
Оруэлл о таком и не мечтал. Мало того, что анализируя поисковой запрос, Большой Брат знает что Петя захотел увеличить себе член, так теперь ББ всегда с тобой и можно с ним поговорить по душам =)
В DeuxEx 2 был автомат NG Resonance с которым нужно было поболтать, так вот он ещё и стучал спецслужбам об услышанном. Думается что это почти уже реальность.
Шаг №2 — добавить в Siri список друзей. Тогда он/а/о будет аккумулировать инфу определённого круга.
Например.
Вася «Siri, видел по пути на работу Петю. Что-то он не радостный»
Siri «Скажу по секрету, Петя вчера провёл 35минут в поисках вакуумного удлинителя члена но на прошлой неделе он пропил остатки зарплаты в баре „Голубая луна“
Только поклянись что никому не расскажешь»
Вася «Мамой клянусь»
Siri «Ok»
Скорее всего. Может, конечно, есть какие-нибудь новые Секретные Наработки в этом деле, но научный state of the art распознавания звуковых последовательностей — это работа со скрытыми цепями Маркова (кстати, методика появилась давно, вопрос был только в обучении на больших базах для точности). Ничего специального именно про распознавание музыки, вроде, нет.
То есть вы считаете, что марковские модели не попадают под акустические отпечатки? Прежде чем давать ссылку на то, что любой может найти за минуту, стоит все-таки подумать.
На что пруфлинк? На то, что при распознавании речи используется вся перечисленная в acoustic fingerprints информация и дальше уже статистический аппарат вроде HMM? Вы так говорите, как будто сами написали уникальные чудо-признаки поиска музыка, на википедии просто общие слова «often exploited by audio fingerprintsю...»
История развития систем распознавания речи: как мы пришли к Siri