upla19 окт 2016 в 17:47

Система распознавания речи Microsoft достигла человеческого уровня

4 мин

35K

Искусственный интеллектIT-компании

+26

Комментарии 31

Kalobok 19 окт 2016 в 18:39

Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.

The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.

То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.

Тщательнее надо!

upla 19 окт 2016 в 18:58

Спасибо, исправлено

orcy 21 окт 2016 в 04:14

> (прослушка)
Дополнению к пакету Яровой: весь Voice трафик должен проходить через систему распознавания речи и анализироваться в реальном времени на предмет угроз обществу.

hardsome 19 окт 2016 в 18:49

Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.

TsukinoMai 20 окт 2016 в 00:19

Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.

hardsome 20 окт 2016 в 00:53

У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
И да, спасибо за комментарий.

PavelGatilov 20 окт 2016 в 09:24

И тем не менее, статья не имеет никакого отношения ни к Скайпу, ни к переводу.

НЛО прилетело и опубликовало эту надпись здесь

therealman_tm 19 окт 2016 в 19:25

Ну отлично. Остальсь эту систему «прикрутить» к YouTube.

Alexey2005 20 окт 2016 в 09:08

Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.

Danov 19 окт 2016 в 19:26

Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?

AlexeyNadezhin 19 окт 2016 в 19:43

В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.

Ghool 19 окт 2016 в 21:07

Вот кстати да.
Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.

PS Я думаю все эти исследования — про английский.
С русским будет хуже.

maniacscientist 19 окт 2016 в 19:45

И как всегда — никакого продукта в результате, одни сервисы

Kenya-West 20 окт 2016 в 04:21

Чукча не писатель, сервис не продукт!

SinsI 19 окт 2016 в 19:53

>После 2 000 часов обучения человеческой речи по этим же аудиофайлам
Это нормально — проверять нейросети на том же материале, на котором они и обучались?!

EviGL 19 окт 2016 в 20:04

Это неоднозначное построение предложения, скорее всего «по этим же» относится к стенографистам, а не к процессу обучения.

Flux 21 окт 2016 в 13:10

Есть такая штука как кросс-валидация.
Будь уверен, в MS Research дураков нет, они знают на чем можно проверять а на чем — нет.

timka05 19 окт 2016 в 20:09

Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.

Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.

timka05 19 окт 2016 в 20:16

Темой промахнулся :(

xenohunter 19 окт 2016 в 22:50

Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.

Areso 20 окт 2016 в 02:47

Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.

hdfan2 20 окт 2016 в 04:24

Не переживайте, такая проблема не только у вас.

tmin10 20 окт 2016 в 11:06

Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.

ramzai 20 окт 2016 в 08:03

Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.

CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/

igorkozinov 20 окт 2016 в 08:23

Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!

FSA 20 окт 2016 в 09:03

Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.

mukizu 20 окт 2016 в 11:53

Речь о распознавании, а не о понимании\анализе.

duke_saiko 21 окт 2016 в 17:56

Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.

LonelyCruiser 21 окт 2016 в 18:07

Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).

VSOP_juDGe 26 дек 2016 в 08:37

А есть что-то подобное в открытом доступе и для русского языка? Пробовал Яндекс СпичКит для рашифровки разговоров операторов интернет-магазина — ничего путного не выдает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий