История развития систем распознавания речи: как мы пришли к Siri

Original author: Melanie Pinola
  • Translation
Оглядываясь назад, мы видим, что развитие технологии распознавания речи похоже на наблюдения процесса взросления у ребенка — прогрессируя от определения отдельных слов, затем все больших словарей и наконец до быстрых ответов на вопросы, как это делает Siri.

Слушая Siri с ее слегка элегантным чувством юмора, мы восхищаемся тем, как далеко продвинулись за эти годы в отрасли распознавания речи. Давайте взглянем в прошлые десятилетия, которые позволили человеку управлять девайсами, используя только голос.


1950 и 1960: Детский лепет


Первые системы распознавания речи могли понимать только цифры (учитывая сложность языка, это правильно, что инженеры сначала сфокусировались на цифрах). Bell Laboratories разработали систему «Audrey», которая распознавала цифры, сказанные одним голосом. Через 10 лет, в 1962 году, IBM продемонстрировала их детище — систему "Shoebox", которая понимала 16 слов на английском.

Лаборатории в США, Японии, Англии и СССР разработали еще несколько аппаратов, которые распознавали отдельные произнесенные звуки, расширив технологию распознавания речи поддержкой четырех гласных и девяти согласных звуков. Звучали они не очень хорошо, но эти первые попытки дали впечатляющий старт, особенно если учитывать, насколько примитивными были компьютеры того времени.

1970-е: Системы постепенно приобретают популярность


Системы распознавания речи сделали большие шаги в семидесятых благодаря интересу и спонсированию от министерства обороны США. Их программа DARPA Speech Understanding Research (SUR) с 1971 по 1976 год была одной из самой большой в истории распознавания речи, и помимо всего остального она отвечала за систему «Harpy» Университета Карнеги Меллона. «Harpy» понимала 1011 слов, что является средним словарным запасом трехлетнего ребенка.

«Harpy» была значительной вехой, так как она представила более эффективный подход к поиску, называемый Beam search, «демонстрируя сеть возможных предложений с конечным числом состояний» ( Readings in Speech Recognition).

70-е годы также отмечены еще несколькими вехами в данной технологии, например основанием первой коммерческой компании Threshold Technology, которая представила систему, которая могла интерпретировать различные голоса.

1980-е: Распознавание речи оправдывает прогнозы


В следующей декаде благодаря новым подходам и технологиям словарный запас подобных систем вырос с нескольких сотен до нескольких тысяч слов и имел потенциал распознавания неограниченного количества слов. Одной из причин был новый статистический метод, больше известный как скрытая марковская модель.

Используя шаблоны для слов и звуковые паттерны, она рассматривала вероятность того, что неизвестные звуки могли быть словами. Эта база использовалась другими системами еще на протяжении двадцати лет (Automatic Speech RecognitionA Brief History of the Technology Development).

С расширенным словарным запасом распознавание речи начало протаптывать себе дорожку в коммерческие приложения для бизнеса и специализированных отраслей, таких как медицина. Она даже вошла в дома обычных людей в 1987 году в виде куклы Worlds of Wonder's Julie doll, которые дети могли натренировать, чтобы она распознавала их голос («Наконец-то кукла, которая тебя понимает»).



Хоть ПО по распознаванию могло распознавать до 5000 слов, как, например, программа Kurzweil text-to-speech, в них был огромный недостаток — эти программы поддерживали дискретную надиктовку, то есть вы должны были останавливаться после каждого слова, чтобы программа его обработала.

1990-е: Автоматическое распознавание речи идет в массы


В девяностых компьютеры наконец-то получили быстрые процессоры, и программы по распознаванию речи стали жизнеспособными.

в 1990 году появилась первая общедоступная программа Dragon Dictate c ошеломляющей ценой 9000 долларов. Спустя семь лет вышла улучшенная версия — Dragon NaturallySpeaking. Приложение распознавало нормальную речь, поэтому вы могли говорить в обычном темпе около 100 слов в минуту. Но все равно, вы должны были тренировать программу в течении 45 минут перед использованием, и она имела все еще высокую цену в 695 долларов.

Появление первого голосового портала VAL от BellSouth было в 1996 году. Это была первая интерактивная система распознавания речи, которая давала информацию, основываясь на том, что вы сказали в трубку телефона. VAL вымостила дорогу для всех неточных на то время голосовых меню, которые надоедали звонящим в следующие 15 лет.

2000-е: Застой в распознавании речи — пока не появился Google


К 2001 году распознавание речи поднялось до 80-процентной точности, и прогресс технологии остановился. Системы распознавали работали отлично, когда языковая вселенная была ограниченной, но они до сих пор «догадывались» при помощи статистических моделей среди похожих слов, языковая вселенная росла вместе с ростом Интернета.

Знали ли вы о том, что распознавание голоса и голосовые команды был встроены в Windows Vista и Mac Os? Большинство пользователей даже не догадывалось, что такая функциональность существует. Windows Speech Recognition и голосовые команды OS X были интересными, но недостаточно точными и удобными, как клавиатура и мышь.

Технология распознавания речи получила второе дыхание после одного важного события: появления приложения Google Voice Search для iPhone. Влияние этого приложения было значительным по двум причинам. Во-первых, телефоны и другие мобильные девайсы — это идеальные объекты для распознавания речи, и желание заменить крошечные экранные клавиатуры альтернативными методами ввода было очень велико. Во-вторых, у Google была возможность разгрузить этот процесс, используя свои облачные дата-центры, направив всю их мощь для крупномасштабного анализа данных для поиска совпадений между словами пользователей и огромного числа образцов голосовых запросов, которые они получали.

Вкратце, узким местом распознавания речи всегда было доступность данных и возможность эффективной их обработки. Приложение же добавило к анализу данные миллиардов поисковых запросов, чтобы лучше предугадывать, что же вы сказали.

В 2010 году Google добавил персональное распознавание в голосовой поиск телефонов под управлением Android. Программное обеспечение могло записывать голосовые запросы пользователей для построения более точной голосовой модели. Также компания добавила распознавание голоса в свой браузер Chrome в середине 2011 года. Помните как мы начали с 10 слов и продвинулись до нескольких тысяч? Так вот система Google теперь позволяет распознать 230 миллиардов слов.

Потом появилась Siri. Так же, как и система Goggle Voice Search, она полагается на облачные вычисления. Она использует те данные, которые ей известны о тебе, чтобы сгенерировать вытекающий из контекста ответ и отвечает на твой запрос, как некая личность. Распознавание речи превратилось из инструмента в развлечение.

Будущее: Точная и повсеместная речь


Бум приложений по распознаванию речи указывает на то, что время распознавания речи пришло, и мы можем ожидать огромного количества их и в будущем. Эти приложения не только позволят контролировать компьютер с помощью голоса или конвертировать голос в текст — они будут также способны различать разные языки, позволят выбирать голос помощника из различных вариантов.

Вполне вероятно, что технология распознавания речи перейдет и на другие типы девайсов. Нетрудно представить, как в будущем мы будем управлять кофеварками, разговаривать с принтерами и говорить освещению, чтобы оно выключалось.
Share post
AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 28

    +11
    Ну вот, заглянул, а алгоритмов нет. Жаль.

    Кстати, а у Сири качество распознавания лучше гуглового?
      +2
      там нюанса же движок. Сири, это распознавание от nuance, а контекст уже от siri / apple. Ответы от bing, google, wolfram alpha,…
        0
        А, тогда понятно. У nuance сильная система.
          0
          На самом деле не совсем понятно, известно что Nuance и Apple сотрудничали и речь возможно даже шла об лицензировании каких-то патентов, так что вероятнее там какой-то гибридный движек.
            0
            Может быть. Я был удивлен когда узнал о Siri. Не вопросно-ответной системой. С ней как раз понятно — трансляция в поисковые движки и вольфрам альфу. Просто, система распознавания — довольно сложная штука. Внезапно и неизчего такие системы не появляются.
        +2
        Siri понимает меня лучше, чем Гугл на LG p990.
        С Гуглом я не мог без ошибок надиктовать трёх слов, а с Siri я могу надиктовывать смс слов в десять.
        Говорю я отнюдь не идеально, мой русский акцент слышен за версту.
          0
          У меня получается перечатать гугловским голосовым вводом, но нужно очень четко проговаривать, а часто это лень. Я оправдываю его тем, что это еще бета))
            +1
            Еще это сильно зависит от качества микрофоно, но распознавание Гуглом уже заметно улучшилось, раньше половину слов не понимал, а теперь большинство понимает, хоть тоже произношение не идеал.
            Плюс недавно появилась возможность персонально подстраиваться под владельца, что должно улучшить поиск.
            –2
            По-моему, статья ни о чем.
            +8
            И опять Apple создала культ. Теперь ждем заголовки: «Блаблабла — убийца Siri», или что-то в таком духе.
              –3
              Бери шире, будут орать о патентах, «мол запатентовали какой-то движок распознования речи. Аппл еще бы колесо запатентовали!!!111!».
                +1
                Ждем с распростертыми объятиями. Apple сделала отличную вещь, двинув технологию в массы. Процесс пошел, через какое-то время, телефон с распознаванием речи будет самим собой разумеющимся, и если у кого-то этого не будет — он просто проиграет конкуренцию. В результате мы, как потребители, только выиграем. «Убийцы» только привлекут внимания к теме, что зэр гут.
                  0
                  Да уже :) На хабре только было три таких топика.
                  –1
                  Есть какое-то нехорошее предчувствие, что любое осмысленное применение распознавания голоса уже кем то запатентовано… Обычно все это патентуется до того, как придут реальные технологии.
                    +13
                    Оруэлл о таком и не мечтал. Мало того, что анализируя поисковой запрос, Большой Брат знает что Петя захотел увеличить себе член, так теперь ББ всегда с тобой и можно с ним поговорить по душам =)

                    В DeuxEx 2 был автомат NG Resonance с которым нужно было поболтать, так вот он ещё и стучал спецслужбам об услышанном. Думается что это почти уже реальность.

                    Шаг №2 — добавить в Siri список друзей. Тогда он/а/о будет аккумулировать инфу определённого круга.
                    Например.
                    Вася «Siri, видел по пути на работу Петю. Что-то он не радостный»
                    Siri «Скажу по секрету, Петя вчера провёл 35минут в поисках вакуумного удлинителя члена но на прошлой неделе он пропил остатки зарплаты в баре „Голубая луна“
                    Только поклянись что никому не расскажешь»
                    Вася «Мамой клянусь»
                    Siri «Ok»
                      +28
                      image
                        +5
                        >Windows Speech Recognition и голосовые команды OS X были интересными, но недостаточно точными и удобными

                        Пусть тут полежит
                        0
                        Интересно, а программы распознавания музыки (типа shazam) работают по сходному принципу?
                          0
                          Скорее всего. Может, конечно, есть какие-нибудь новые Секретные Наработки в этом деле, но научный state of the art распознавания звуковых последовательностей — это работа со скрытыми цепями Маркова (кстати, методика появилась давно, вопрос был только в обучении на больших базах для точности). Ничего специального именно про распознавание музыки, вроде, нет.
                            0
                            Нет, системы распознавания музыки используют acoustic fingerprints.
                              –2
                              То есть вы считаете, что марковские модели не попадают под акустические отпечатки? Прежде чем давать ссылку на то, что любой может найти за минуту, стоит все-таки подумать.
                                0
                                По крайней мере в статье ссылок на них не заметил. М.б. тогда пруфлинк?
                                  0
                                  На что пруфлинк? На то, что при распознавании речи используется вся перечисленная в acoustic fingerprints информация и дальше уже статистический аппарат вроде HMM? Вы так говорите, как будто сами написали уникальные чудо-признаки поиска музыка, на википедии просто общие слова «often exploited by audio fingerprintsю...»
                            +5
                              +1
                              Смеюсь — аж слёзы из глаз. Крепкие нервы у парня. :)
                              0
                                0
                                «Эта база использовалась другими системами еще на протяжении двадцати лет»


                                Закономерный вопрос, а что использовалось в последние десять лет?

                                Only users with full accounts can post comments. Log in, please.