Pull to refresh

Comments 48

Когда будет реальные примеры? Google сразу давал использовать google voice, а microsoft обратно только пишет?
Есть несколько приличных движков распознования речи, и гугловский явно не входит в их число. Хотя бы потому, что он распознаёт не речь, а словосочетания.
А «Горыныч» входит в их число?
UFO just landed and posted this here
Uploaded by scrubadub1 on Feb 13, 2007, а новость от August 29, 2011 12:01 AM PT.
Сдается мне что новость все же о другом.
Почему вы смотрите на дату, а не на название? Понятно же, что Windows Vista явно не передовой край науки от Microsoft Research. Это nanodust так шутит.
Примеры будут в новом Windows или на крайний случай в Office… В общем за деньги, а на дать на пощупать новый технологии в отрыве от продукта с ценником Майкрософт не особо горазд.
Сорри, промахнулся кнопкой, хотел ответить на коммент, а получился новый комментарий.
Да ну, ценник у MS не так уж и высок, если покупать под задачи, а не по-русски. (если Windows — то Ultimate, если Office — то Professional Plus и никак иначе)
Неправда. МС не так уж редко дает попробовать новые технологии на халяву, пока они еще разрабатываются. Вот конечный продукт — не обязательно.
«Покажите им Иисуса и они скажут, что у него грязные ноги».
Они опубликовали статью, где подробно расписали и всю математику и алгоритм и схему декодера. После этого сделать реализацию — дело техники. Так что нехуй тут…
А патенты на эту математику уже выписаны? Что толку реализовывать, что потом все равно отсудят (:
Не очень понял, что вы имеете ввиду. Вообще да, в Америке можно патентовать некоторый класс алгоритмов. Но я уверен, что ничего такого они делать не станут. Шило в мешке не удержишь. Я себе не представляю, как можно запретить использовать алгоритм, тем более, что они его публично во всех деталях представили. Они наоборот, пытаются донести его до как можно более широкой аудитории — как любой ученый со своей идеей. Это не индустрия, а наука, там другие критерии. Импакт-фактор и все такое.

Во-вторых, там все сложнее. Это не просто алгоритм в духе «возьмите два числа». Это идея насчет применения определенного класса нейронных сетей к задаче распознавания речи.

В-третьих, никакой это не прорыв. У меня сейчас коллега на этой конференции, я спросил насчет реакции на презентацию, говорит ничего особенного. Никто не побежал допрашивать докладчиков, как они совершили это чудо и куда нести деньги. Этой схеме еще предстоит пройти испытания на прочность на других базах, а там может быть посмотрим. А что там Майкрософт на своем сайте написал — это его, Майкрософта, дело :)
>Я себе не представляю, как можно запретить использовать алгоритм, тем более, что они его публично во всех деталях представили.

Да легко. Вспомните, хотя бы бодягу с LZW.
Хотел бы я посмотреть на того, кто по этой «расписанной» математике сделает свою реализацию.
Только в HMM достаточное количество подводных камней, над обходом которых можно биться годами.
Да и вообще, если реализация так уж проста, китайцы с индусами скоренько сделают свою, а там бейся МС за свои патенты. Не думаю, что руководители МС Рисерч так уж наивны.
Мне интересен перевод оригинальной новости.Мне интересен перевод оригинальной новости.
delete Мне интересен перевод оригинальной новости ©
А куда, кроме топика переводов, можно отправить перевод данной статьи? А то кармы не хватает для поста.
Я даже не знаю, ибо сам на неё не богат. Может просто в комментарии?
Skype, Xbox, Windows Phone 8, Windows 8 — голосовые интерфейсы и multitouch вот вам и Natural User Interface. Интересно как там с русским языком?
Не думаю, что это проблема, главное бы словарь побольше был.
Принципиально для HMM безразличен язык, здесь не используются всевозможные онтологии-тезаурусы, привязанные к конкретному языку.
Однако практическая реализация может и задержаться, как и любая другая русификация.
Тогда не совсем понятно, что такое контекстно-зависимая.
Марковскую модель можно заточить и под контекст, а не обязательно под подряд идущие n-граммы.
С помощью… нейронной сети и Джорджа Дала… удалось улучшить качество и скорость распознавания речи...

Что не смогла распознать нейронная есть — распознает Джордж?
Даешь, с каждым дистрибутивом Win 8 индуса в комплекте. При покупке семейной версии Win8, с индусом идет и его семья:)
Enterprise? на каждую установленную копию — по индусу.
Home — индус живет у вас дома
Professional — индус живет у вас на работе
Ultimate — индус ходит за вами везде
Джордж — живая нейронная подсеть.
Главное, что сходство с 3D есть.
Да, причем Джордж отвечает за скорость, а сеть — за качество.
UFO just landed and posted this here
Только сегодня заметил на youtube возможность переводить речь с видео в субтитры. Есть-ли связь между этими темами?
Оно там стопицот лет.
Я думаю в этой статье идет упор на 2 фактора: ускорение на GPU и контекстно зависимость.
Implementing a Speech Recognition System on a GPU using CUDA — это уже не новость… А про результаты IS — чуть позже почитаем и напишем, что же там за такой прорыв :)
Лишь бы патентами не огородились. Хорошая система нужна. А то в универе работал со Сфинксом, так от моего акцента даже джава машина вылетала :)
Хм, думаю, что патенты Майкрософтом уже получены, иначе не было бы никакого анонса.
А при чём тут патенты? Пусть патентуют, и продают как другие движки для распознавания речи, может хоть у них выйдет что-то более вменяемое чем все ахтунги что на рынке сейчас.
Я могу ошибаться, но если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти. А если они вцепятся в эти патенты, то другим исследователям в этом направлении путь будет закрыт.
если они нашли более эффективный алгоритм для нейронных сетей, то скорее всего он не только для этой задачи может подойти

Как раз наоборот — она эффективнее обычных сетей из-за заточки под узкий круг задач. Но то, что эта технология должна быть открытой — это без сомнений.
Просмотрел статью. По результатам могу сказать, что все это, конечно, хорошо…
Они тестировали схему на базе данных Switchboard. Процент ошибок среди слов — 18.5 процентов (Марковские модели дают 27.4).
Двоякое чувство. База очень сложная — это спонтанная речь, записи телефонных переговоров. И 18.5 WER для нее — это очень хорошо, действительно прорыв для технологий. Но 18.5 это слишком много для полноценного понимания, допускается около 5, так что пока рановато говорить о «почти человеческих» показателях. Плюс надо еще обкатать технологию.

По поводу патентов и прочей ереси — можете не переживать. Эти ребята работают для науки и опубликовали статью со всеми подробностями на крупнейшей конференции, то есть сдали метод с потрохами. Если бы захотели — молчали бы в тряпочку и патентовали все подряд, как это делает Nuance.
Соглашусь. Это не то что бы прорыв «ой везде теперь голос будет внедрен». Радуются они тому, что нащупано направление в улучшении алгоритмов дающее значимый прирост в качестве распознавания. Значимый — это не доли процентов граничащие с статистической погрешностью, но и не в разы. Всего то уровень ошибок распознавания с помощью этого алгоритма был снижен с 27% до 18.5% Многие годы все топтались на одном месте, и наконец хоть что то стало работать лучше.
Кстати, 18.5% для спонтанной речи! Учитывая, что на более простых задачах ошибки на уровне 5-7 процентов, это таки повод говорить «ой везде теперь голос будет внедрен» :)
На смартфонах — так точно, меня и текущее качество распознавания от гугла устраивает.
UFO just landed and posted this here
Ай-яй, а мужики-то и не знают… Надо срочно написать в Майкрософт :)
На самом деле база базе рознь. Мои результаты — от 84% на Verbmobil до 46% на AVIC. А они тестили на Switchboard. Сколько выдала бы система киевских ребят — большой вопрос.
UFO just landed and posted this here
все дело в ограничениях, которые накладывают на распознавание — т.е. что именно подают на распознавание?
Произвольную речь, т.е. человек наговорил что-то и все распознают или что-то отбрасывают, а что-то оставляют — в деталях суть, а не в общем результате WER.
Какими средствами этот WER достигался — это важно.
Sign up to leave a comment.

Articles