safright30 авг 2011 в 07:34

Microsoft Research объявило о прорыве в распознавании речи

1 мин

Алгоритмы *

+69

Комментарии 48

kal1sha 30 авг 2011 в 07:45

Когда будет реальные примеры? Google сразу давал использовать google voice, а microsoft обратно только пишет?

xqz_me 30 авг 2011 в 07:57

Есть несколько приличных движков распознования речи, и гугловский явно не входит в их число. Хотя бы потому, что он распознаёт не речь, а словосочетания.

dazed 30 авг 2011 в 09:43

А «Горыныч» входит в их число?

НЛО прилетело и опубликовало эту надпись здесь

beolnix 30 авг 2011 в 10:45

Uploaded by scrubadub1 on Feb 13, 2007, а новость от August 29, 2011 12:01 AM PT.
Сдается мне что новость все же о другом.

axlerk 30 авг 2011 в 11:08

Почему вы смотрите на дату, а не на название? Понятно же, что Windows Vista явно не передовой край науки от Microsoft Research. Это nanodust так шутит.

sphinks 30 авг 2011 в 07:47

Примеры будут в новом Windows или на крайний случай в Office… В общем за деньги, а на дать на пощупать новый технологии в отрыве от продукта с ценником Майкрософт не особо горазд.

sphinks 30 авг 2011 в 07:48

Сорри, промахнулся кнопкой, хотел ответить на коммент, а получился новый комментарий.

artemlight 30 авг 2011 в 08:01

Да ну, ценник у MS не так уж и высок, если покупать под задачи, а не по-русски. (если Windows — то Ultimate, если Office — то Professional Plus и никак иначе)

Kalobok 30 авг 2011 в 14:28

Неправда. МС не так уж редко дает попробовать новые технологии на халяву, пока они еще разрабатываются. Вот конечный продукт — не обязательно.

kometa_triatlon 30 авг 2011 в 14:54

«Покажите им Иисуса и они скажут, что у него грязные ноги».
Они опубликовали статью, где подробно расписали и всю математику и алгоритм и схему декодера. После этого сделать реализацию — дело техники. Так что нехуй тут…

mechmind 30 авг 2011 в 16:41

А патенты на эту математику уже выписаны? Что толку реализовывать, что потом все равно отсудят (:

kometa_triatlon 30 авг 2011 в 16:59

Не очень понял, что вы имеете ввиду. Вообще да, в Америке можно патентовать некоторый класс алгоритмов. Но я уверен, что ничего такого они делать не станут. Шило в мешке не удержишь. Я себе не представляю, как можно запретить использовать алгоритм, тем более, что они его публично во всех деталях представили. Они наоборот, пытаются донести его до как можно более широкой аудитории — как любой ученый со своей идеей. Это не индустрия, а наука, там другие критерии. Импакт-фактор и все такое.

Во-вторых, там все сложнее. Это не просто алгоритм в духе «возьмите два числа». Это идея насчет применения определенного класса нейронных сетей к задаче распознавания речи.

В-третьих, никакой это не прорыв. У меня сейчас коллега на этой конференции, я спросил насчет реакции на презентацию, говорит ничего особенного. Никто не побежал допрашивать докладчиков, как они совершили это чудо и куда нести деньги. Этой схеме еще предстоит пройти испытания на прочность на других базах, а там может быть посмотрим. А что там Майкрософт на своем сайте написал — это его, Майкрософта, дело :)

dime 1 сен 2011 в 08:25

>Я себе не представляю, как можно запретить использовать алгоритм, тем более, что они его публично во всех деталях представили.

Да легко. Вспомните, хотя бы бодягу с LZW.

Trept 31 авг 2011 в 09:46

Хотел бы я посмотреть на того, кто по этой «расписанной» математике сделает свою реализацию.
Только в HMM достаточное количество подводных камней, над обходом которых можно биться годами.
Да и вообще, если реализация так уж проста, китайцы с индусами скоренько сделают свою, а там бейся МС за свои патенты. Не думаю, что руководители МС Рисерч так уж наивны.

vrmzar 30 авг 2011 в 07:49

Мне интересен перевод оригинальной новости.Мне интересен перевод оригинальной новости.

axlerk 30 авг 2011 в 09:51

delete Мне интересен перевод оригинальной новости ©

VMAtm 4 сен 2011 в 16:01

А куда, кроме топика переводов, можно отправить перевод данной статьи? А то кармы не хватает для поста.

vrmzar 12 сен 2011 в 17:07

Я даже не знаю, ибо сам на неё не богат. Может просто в комментарии?

novoselov 30 авг 2011 в 07:55

Skype, Xbox, Windows Phone 8, Windows 8 — голосовые интерфейсы и multitouch вот вам и Natural User Interface. Интересно как там с русским языком?

chupvl 30 авг 2011 в 07:57

Не думаю, что это проблема, главное бы словарь побольше был.

Trept 30 авг 2011 в 08:43

Принципиально для HMM безразличен язык, здесь не используются всевозможные онтологии-тезаурусы, привязанные к конкретному языку.
Однако практическая реализация может и задержаться, как и любая другая русификация.

novoselov 30 авг 2011 в 10:47

Тогда не совсем понятно, что такое контекстно-зависимая.

Trept 30 авг 2011 в 11:10

Марковскую модель можно заточить и под контекст, а не обязательно под подряд идущие n-граммы.

chupvl 30 авг 2011 в 07:57

Deep Learning NN — прекрасно!!!

sadsanta 30 авг 2011 в 08:00

С помощью… нейронной сети и Джорджа Дала… удалось улучшить качество и скорость распознавания речи...

Что не смогла распознать нейронная есть — распознает Джордж?

Mihrutkin 30 авг 2011 в 08:06

Даешь, с каждым дистрибутивом Win 8 индуса в комплекте. При покупке семейной версии Win8, с индусом идет и его семья:)

NekitoSP 30 авг 2011 в 10:10

Enterprise? на каждую установленную копию — по индусу.

Fak3 30 авг 2011 в 14:33

Home — индус живет у вас дома
Professional — индус живет у вас на работе
Ultimate — индус ходит за вами везде

Scrup 30 авг 2011 в 09:45

Джордж — живая нейронная подсеть.

ChemAli 30 авг 2011 в 13:22

Главное, что сходство с 3D есть.

ComodoHacker 30 авг 2011 в 21:10

Да, причем Джордж отвечает за скорость, а сеть — за качество.

НЛО прилетело и опубликовало эту надпись здесь

UncleAndy 30 авг 2011 в 08:14

Только сегодня заметил на youtube возможность переводить речь с видео в субтитры. Есть-ли связь между этими темами?

TIgorA 30 авг 2011 в 08:19

Оно там стопицот лет.
Я думаю в этой статье идет упор на 2 фактора: ускорение на GPU и контекстно зависимость.

MoTaJiKa 30 авг 2011 в 09:07

Implementing a Speech Recognition System on a GPU using CUDA — это уже не новость… А про результаты IS — чуть позже почитаем и напишем, что же там за такой прорыв :)

tulskiy 30 авг 2011 в 08:25

Лишь бы патентами не огородились. Хорошая система нужна. А то в универе работал со Сфинксом, так от моего акцента даже джава машина вылетала :)

Trept 30 авг 2011 в 08:45

Хм, думаю, что патенты Майкрософтом уже получены, иначе не было бы никакого анонса.

daspisch 30 авг 2011 в 10:39

А при чём тут патенты? Пусть патентуют, и продают как другие движки для распознавания речи, может хоть у них выйдет что-то более вменяемое чем все ахтунги что на рынке сейчас.

tulskiy 30 авг 2011 в 10:43

Я могу ошибаться, но если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти. А если они вцепятся в эти патенты, то другим исследователям в этом направлении путь будет закрыт.

VladX 30 авг 2011 в 12:22

если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти

Как раз наоборот — она эффективнее обычных сетей из-за заточки под узкий круг задач. Но то, что эта технология должна быть открытой — это без сомнений.

kometa_triatlon 30 авг 2011 в 15:20

Просмотрел статью. По результатам могу сказать, что все это, конечно, хорошо…
Они тестировали схему на базе данных Switchboard. Процент ошибок среди слов — 18.5 процентов (Марковские модели дают 27.4).
Двоякое чувство. База очень сложная — это спонтанная речь, записи телефонных переговоров. И 18.5 WER для нее — это очень хорошо, действительно прорыв для технологий. Но 18.5 это слишком много для полноценного понимания, допускается около 5, так что пока рановато говорить о «почти человеческих» показателях. Плюс надо еще обкатать технологию.

По поводу патентов и прочей ереси — можете не переживать. Эти ребята работают для науки и опубликовали статью со всеми подробностями на крупнейшей конференции, то есть сдали метод с потрохами. Если бы захотели — молчали бы в тряпочку и патентовали все подряд, как это делает Nuance.

dmandreev 30 авг 2011 в 19:23

Соглашусь. Это не то что бы прорыв «ой везде теперь голос будет внедрен». Радуются они тому, что нащупано направление в улучшении алгоритмов дающее значимый прирост в качестве распознавания. Значимый — это не доли процентов граничащие с статистической погрешностью, но и не в разы. Всего то уровень ошибок распознавания с помощью этого алгоритма был снижен с 27% до 18.5% Многие годы все топтались на одном месте, и наконец хоть что то стало работать лучше.

kometa_triatlon 30 авг 2011 в 20:40

Кстати, 18.5% для спонтанной речи! Учитывая, что на более простых задачах ошибки на уровне 5-7 процентов, это таки повод говорить «ой везде теперь голос будет внедрен» :)
На смартфонах — так точно, меня и текущее качество распознавания от гугла устраивает.

НЛО прилетело и опубликовало эту надпись здесь

kometa_triatlon 30 авг 2011 в 21:18

Ай-яй, а мужики-то и не знают… Надо срочно написать в Майкрософт :)
На самом деле база базе рознь. Мои результаты — от 84% на Verbmobil до 46% на AVIC. А они тестили на Switchboard. Сколько выдала бы система киевских ребят — большой вопрос.

НЛО прилетело и опубликовало эту надпись здесь

MoTaJiKa 15 сен 2011 в 10:21

все дело в ограничениях, которые накладывают на распознавание — т.е. что именно подают на распознавание?
Произвольную речь, т.е. человек наговорил что-то и все распознают или что-то отбрасывают, а что-то оставляют — в деталях суть, а не в общем результате WER.
Какими средствами этот WER достигался — это важно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий