Comments 48
Когда будет реальные примеры? Google сразу давал использовать google voice, а microsoft обратно только пишет?
+7
Примеры будут в новом Windows или на крайний случай в Office… В общем за деньги, а на дать на пощупать новый технологии в отрыве от продукта с ценником Майкрософт не особо горазд.
-1
Сорри, промахнулся кнопкой, хотел ответить на коммент, а получился новый комментарий.
0
Да ну, ценник у MS не так уж и высок, если покупать под задачи, а не по-русски. (если Windows — то Ultimate, если Office — то Professional Plus и никак иначе)
+16
Неправда. МС не так уж редко дает попробовать новые технологии на халяву, пока они еще разрабатываются. Вот конечный продукт — не обязательно.
+2
«Покажите им Иисуса и они скажут, что у него грязные ноги».
Они опубликовали статью, где подробно расписали и всю математику и алгоритм и схему декодера. После этого сделать реализацию — дело техники. Так что нехуй тут…
Они опубликовали статью, где подробно расписали и всю математику и алгоритм и схему декодера. После этого сделать реализацию — дело техники. Так что нехуй тут…
+4
А патенты на эту математику уже выписаны? Что толку реализовывать, что потом все равно отсудят (:
0
Не очень понял, что вы имеете ввиду. Вообще да, в Америке можно патентовать некоторый класс алгоритмов. Но я уверен, что ничего такого они делать не станут. Шило в мешке не удержишь. Я себе не представляю, как можно запретить использовать алгоритм, тем более, что они его публично во всех деталях представили. Они наоборот, пытаются донести его до как можно более широкой аудитории — как любой ученый со своей идеей. Это не индустрия, а наука, там другие критерии. Импакт-фактор и все такое.
Во-вторых, там все сложнее. Это не просто алгоритм в духе «возьмите два числа». Это идея насчет применения определенного класса нейронных сетей к задаче распознавания речи.
В-третьих, никакой это не прорыв. У меня сейчас коллега на этой конференции, я спросил насчет реакции на презентацию, говорит ничего особенного. Никто не побежал допрашивать докладчиков, как они совершили это чудо и куда нести деньги. Этой схеме еще предстоит пройти испытания на прочность на других базах, а там может быть посмотрим. А что там Майкрософт на своем сайте написал — это его, Майкрософта, дело :)
Во-вторых, там все сложнее. Это не просто алгоритм в духе «возьмите два числа». Это идея насчет применения определенного класса нейронных сетей к задаче распознавания речи.
В-третьих, никакой это не прорыв. У меня сейчас коллега на этой конференции, я спросил насчет реакции на презентацию, говорит ничего особенного. Никто не побежал допрашивать докладчиков, как они совершили это чудо и куда нести деньги. Этой схеме еще предстоит пройти испытания на прочность на других базах, а там может быть посмотрим. А что там Майкрософт на своем сайте написал — это его, Майкрософта, дело :)
0
Хотел бы я посмотреть на того, кто по этой «расписанной» математике сделает свою реализацию.
Только в HMM достаточное количество подводных камней, над обходом которых можно биться годами.
Да и вообще, если реализация так уж проста, китайцы с индусами скоренько сделают свою, а там бейся МС за свои патенты. Не думаю, что руководители МС Рисерч так уж наивны.
Только в HMM достаточное количество подводных камней, над обходом которых можно биться годами.
Да и вообще, если реализация так уж проста, китайцы с индусами скоренько сделают свою, а там бейся МС за свои патенты. Не думаю, что руководители МС Рисерч так уж наивны.
0
Мне интересен перевод оригинальной новости.Мне интересен перевод оригинальной новости.
+15
Skype, Xbox, Windows Phone 8, Windows 8 — голосовые интерфейсы и multitouch вот вам и Natural User Interface. Интересно как там с русским языком?
+3
Deep Learning NN — прекрасно!!!
+1
С помощью… нейронной сети и Джорджа Дала… удалось улучшить качество и скорость распознавания речи...
Что не смогла распознать нейронная есть — распознает Джордж?
+61
Только сегодня заметил на youtube возможность переводить речь с видео в субтитры. Есть-ли связь между этими темами?
-2
Лишь бы патентами не огородились. Хорошая система нужна. А то в универе работал со Сфинксом, так от моего акцента даже джава машина вылетала :)
+4
Хм, думаю, что патенты Майкрософтом уже получены, иначе не было бы никакого анонса.
+4
А при чём тут патенты? Пусть патентуют, и продают как другие движки для распознавания речи, может хоть у них выйдет что-то более вменяемое чем все ахтунги что на рынке сейчас.
-2
Я могу ошибаться, но если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти. А если они вцепятся в эти патенты, то другим исследователям в этом направлении путь будет закрыт.
0
Просмотрел статью. По результатам могу сказать, что все это, конечно, хорошо…
Они тестировали схему на базе данных Switchboard. Процент ошибок среди слов — 18.5 процентов (Марковские модели дают 27.4).
Двоякое чувство. База очень сложная — это спонтанная речь, записи телефонных переговоров. И 18.5 WER для нее — это очень хорошо, действительно прорыв для технологий. Но 18.5 это слишком много для полноценного понимания, допускается около 5, так что пока рановато говорить о «почти человеческих» показателях. Плюс надо еще обкатать технологию.
По поводу патентов и прочей ереси — можете не переживать. Эти ребята работают для науки и опубликовали статью со всеми подробностями на крупнейшей конференции, то есть сдали метод с потрохами. Если бы захотели — молчали бы в тряпочку и патентовали все подряд, как это делает Nuance.
Они тестировали схему на базе данных Switchboard. Процент ошибок среди слов — 18.5 процентов (Марковские модели дают 27.4).
Двоякое чувство. База очень сложная — это спонтанная речь, записи телефонных переговоров. И 18.5 WER для нее — это очень хорошо, действительно прорыв для технологий. Но 18.5 это слишком много для полноценного понимания, допускается около 5, так что пока рановато говорить о «почти человеческих» показателях. Плюс надо еще обкатать технологию.
По поводу патентов и прочей ереси — можете не переживать. Эти ребята работают для науки и опубликовали статью со всеми подробностями на крупнейшей конференции, то есть сдали метод с потрохами. Если бы захотели — молчали бы в тряпочку и патентовали все подряд, как это делает Nuance.
+7
Соглашусь. Это не то что бы прорыв «ой везде теперь голос будет внедрен». Радуются они тому, что нащупано направление в улучшении алгоритмов дающее значимый прирост в качестве распознавания. Значимый — это не доли процентов граничащие с статистической погрешностью, но и не в разы. Всего то уровень ошибок распознавания с помощью этого алгоритма был снижен с 27% до 18.5% Многие годы все топтались на одном месте, и наконец хоть что то стало работать лучше.
0
Кстати, 18.5% для спонтанной речи! Учитывая, что на более простых задачах ошибки на уровне 5-7 процентов, это таки повод говорить «ой везде теперь голос будет внедрен» :)
На смартфонах — так точно, меня и текущее качество распознавания от гугла устраивает.
На смартфонах — так точно, меня и текущее качество распознавания от гугла устраивает.
0
UFO just landed and posted this here
Ай-яй, а мужики-то и не знают… Надо срочно написать в Майкрософт :)
На самом деле база базе рознь. Мои результаты — от 84% на Verbmobil до 46% на AVIC. А они тестили на Switchboard. Сколько выдала бы система киевских ребят — большой вопрос.
На самом деле база базе рознь. Мои результаты — от 84% на Verbmobil до 46% на AVIC. А они тестили на Switchboard. Сколько выдала бы система киевских ребят — большой вопрос.
+1
все дело в ограничениях, которые накладывают на распознавание — т.е. что именно подают на распознавание?
Произвольную речь, т.е. человек наговорил что-то и все распознают или что-то отбрасывают, а что-то оставляют — в деталях суть, а не в общем результате WER.
Какими средствами этот WER достигался — это важно.
Произвольную речь, т.е. человек наговорил что-то и все распознают или что-то отбрасывают, а что-то оставляют — в деталях суть, а не в общем результате WER.
Какими средствами этот WER достигался — это важно.
0
Sign up to leave a comment.
Microsoft Research объявило о прорыве в распознавании речи