Есть несколько приличных движков распознования речи, и гугловский явно не входит в их число. Хотя бы потому, что он распознаёт не речь, а словосочетания.
Почему вы смотрите на дату, а не на название? Понятно же, что Windows Vista явно не передовой край науки от Microsoft Research. Это nanodust так шутит.
Примеры будут в новом Windows или на крайний случай в Office… В общем за деньги, а на дать на пощупать новый технологии в отрыве от продукта с ценником Майкрософт не особо горазд.
Да ну, ценник у MS не так уж и высок, если покупать под задачи, а не по-русски. (если Windows — то Ultimate, если Office — то Professional Plus и никак иначе)
«Покажите им Иисуса и они скажут, что у него грязные ноги».
Они опубликовали статью, где подробно расписали и всю математику и алгоритм и схему декодера. После этого сделать реализацию — дело техники. Так что нехуй тут…
Не очень понял, что вы имеете ввиду. Вообще да, в Америке можно патентовать некоторый класс алгоритмов. Но я уверен, что ничего такого они делать не станут. Шило в мешке не удержишь. Я себе не представляю, как можно запретить использовать алгоритм, тем более, что они его публично во всех деталях представили. Они наоборот, пытаются донести его до как можно более широкой аудитории — как любой ученый со своей идеей. Это не индустрия, а наука, там другие критерии. Импакт-фактор и все такое.
Во-вторых, там все сложнее. Это не просто алгоритм в духе «возьмите два числа». Это идея насчет применения определенного класса нейронных сетей к задаче распознавания речи.
В-третьих, никакой это не прорыв. У меня сейчас коллега на этой конференции, я спросил насчет реакции на презентацию, говорит ничего особенного. Никто не побежал допрашивать докладчиков, как они совершили это чудо и куда нести деньги. Этой схеме еще предстоит пройти испытания на прочность на других базах, а там может быть посмотрим. А что там Майкрософт на своем сайте написал — это его, Майкрософта, дело :)
Хотел бы я посмотреть на того, кто по этой «расписанной» математике сделает свою реализацию.
Только в HMM достаточное количество подводных камней, над обходом которых можно биться годами.
Да и вообще, если реализация так уж проста, китайцы с индусами скоренько сделают свою, а там бейся МС за свои патенты. Не думаю, что руководители МС Рисерч так уж наивны.
Принципиально для HMM безразличен язык, здесь не используются всевозможные онтологии-тезаурусы, привязанные к конкретному языку.
Однако практическая реализация может и задержаться, как и любая другая русификация.
Implementing a Speech Recognition System on a GPU using CUDA — это уже не новость… А про результаты IS — чуть позже почитаем и напишем, что же там за такой прорыв :)
А при чём тут патенты? Пусть патентуют, и продают как другие движки для распознавания речи, может хоть у них выйдет что-то более вменяемое чем все ахтунги что на рынке сейчас.
Я могу ошибаться, но если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти. А если они вцепятся в эти патенты, то другим исследователям в этом направлении путь будет закрыт.
если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти
Как раз наоборот — она эффективнее обычных сетей из-за заточки под узкий круг задач. Но то, что эта технология должна быть открытой — это без сомнений.
Просмотрел статью. По результатам могу сказать, что все это, конечно, хорошо…
Они тестировали схему на базе данных Switchboard. Процент ошибок среди слов — 18.5 процентов (Марковские модели дают 27.4).
Двоякое чувство. База очень сложная — это спонтанная речь, записи телефонных переговоров. И 18.5 WER для нее — это очень хорошо, действительно прорыв для технологий. Но 18.5 это слишком много для полноценного понимания, допускается около 5, так что пока рановато говорить о «почти человеческих» показателях. Плюс надо еще обкатать технологию.
По поводу патентов и прочей ереси — можете не переживать. Эти ребята работают для науки и опубликовали статью со всеми подробностями на крупнейшей конференции, то есть сдали метод с потрохами. Если бы захотели — молчали бы в тряпочку и патентовали все подряд, как это делает Nuance.
Соглашусь. Это не то что бы прорыв «ой везде теперь голос будет внедрен». Радуются они тому, что нащупано направление в улучшении алгоритмов дающее значимый прирост в качестве распознавания. Значимый — это не доли процентов граничащие с статистической погрешностью, но и не в разы. Всего то уровень ошибок распознавания с помощью этого алгоритма был снижен с 27% до 18.5% Многие годы все топтались на одном месте, и наконец хоть что то стало работать лучше.
Кстати, 18.5% для спонтанной речи! Учитывая, что на более простых задачах ошибки на уровне 5-7 процентов, это таки повод говорить «ой везде теперь голос будет внедрен» :)
На смартфонах — так точно, меня и текущее качество распознавания от гугла устраивает.
Ай-яй, а мужики-то и не знают… Надо срочно написать в Майкрософт :)
На самом деле база базе рознь. Мои результаты — от 84% на Verbmobil до 46% на AVIC. А они тестили на Switchboard. Сколько выдала бы система киевских ребят — большой вопрос.
все дело в ограничениях, которые накладывают на распознавание — т.е. что именно подают на распознавание?
Произвольную речь, т.е. человек наговорил что-то и все распознают или что-то отбрасывают, а что-то оставляют — в деталях суть, а не в общем результате WER.
Какими средствами этот WER достигался — это важно.
Microsoft Research объявило о прорыве в распознавании речи