upla Oct 19 2016 at 20:47

Система распознавания речи Microsoft достигла человеческого уровня

4 min

35K

Artificial IntelligenceIT-companies

+29

Comments 31

Kalobok Oct 19 2016 at 21:39

Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.

The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.

То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.

Тщательнее надо!

upla Oct 19 2016 at 21:58

Спасибо, исправлено

orcy Oct 21 2016 at 07:14

> (прослушка)
Дополнению к пакету Яровой: весь Voice трафик должен проходить через систему распознавания речи и анализироваться в реальном времени на предмет угроз обществу.

hardsome Oct 19 2016 at 21:49

Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.

TsukinoMai Oct 20 2016 at 03:19

Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.

hardsome Oct 20 2016 at 03:53

У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
И да, спасибо за комментарий.

PavelGatilov Oct 20 2016 at 12:24

И тем не менее, статья не имеет никакого отношения ни к Скайпу, ни к переводу.

UFO landed and left these words here

therealman_tm Oct 19 2016 at 22:25

Ну отлично. Остальсь эту систему «прикрутить» к YouTube.

Alexey2005 Oct 20 2016 at 12:08

Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.

Danov Oct 19 2016 at 22:26

Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?

AlexeyNadezhin Oct 19 2016 at 22:43

В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.

Ghool Oct 20 2016 at 00:07

Вот кстати да.
Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.

PS Я думаю все эти исследования — про английский.
С русским будет хуже.

maniacscientist Oct 19 2016 at 22:45

И как всегда — никакого продукта в результате, одни сервисы

Kenya-West Oct 20 2016 at 07:21

Чукча не писатель, сервис не продукт!

SinsI Oct 19 2016 at 22:53

>После 2 000 часов обучения человеческой речи по этим же аудиофайлам
Это нормально — проверять нейросети на том же материале, на котором они и обучались?!

EviGL Oct 19 2016 at 23:04

Это неоднозначное построение предложения, скорее всего «по этим же» относится к стенографистам, а не к процессу обучения.

Flux Oct 21 2016 at 16:10

Есть такая штука как кросс-валидация.
Будь уверен, в MS Research дураков нет, они знают на чем можно проверять а на чем — нет.

timka05 Oct 19 2016 at 23:09

Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.

Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.

timka05 Oct 19 2016 at 23:16

Темой промахнулся :(

xenohunter Oct 20 2016 at 01:50

Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.

Areso Oct 20 2016 at 05:47

Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.

hdfan2 Oct 20 2016 at 07:24

Не переживайте, такая проблема не только у вас.

tmin10 Oct 20 2016 at 14:06

Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.

ramzai Oct 20 2016 at 11:03

Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.

CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/

igorkozinov Oct 20 2016 at 11:23

Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!

FSA Oct 20 2016 at 12:03

Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.

mukizu Oct 20 2016 at 14:53

Речь о распознавании, а не о понимании\анализе.

duke_saiko Oct 21 2016 at 20:56

Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.

LonelyCruiser Oct 21 2016 at 21:07

Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).

VSOP_juDGe Dec 26 2016 at 11:37

А есть что-то подобное в открытом доступе и для русского языка? Пробовал Яндекс СпичКит для рашифровки разговоров операторов интернет-магазина — ничего путного не выдает.