Pull to refresh

Comments 31

Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.

The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.


То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.

Тщательнее надо!
> (прослушка)
Дополнению к пакету Яровой: весь Voice трафик должен проходить через систему распознавания речи и анализироваться в реальном времени на предмет угроз обществу.
Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.

Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.

У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
И да, спасибо за комментарий.
И тем не менее, статья не имеет никакого отношения ни к Скайпу, ни к переводу.
UFO landed and left these words here
Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.
Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?
В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.
Вот кстати да.
Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.

PS Я думаю все эти исследования — про английский.
С русским будет хуже.
И как всегда — никакого продукта в результате, одни сервисы
Чукча не писатель, сервис не продукт!
>После 2 000 часов обучения человеческой речи по этим же аудиофайлам
Это нормально — проверять нейросети на том же материале, на котором они и обучались?!
Это неоднозначное построение предложения, скорее всего «по этим же» относится к стенографистам, а не к процессу обучения.
Есть такая штука как кросс-валидация.
Будь уверен, в MS Research дураков нет, они знают на чем можно проверять а на чем — нет.
Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.

Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.
Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.
Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.

Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.

Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.

CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/
Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!
Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.
Речь о распознавании, а не о понимании\анализе.
Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.
Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).
А есть что-то подобное в открытом доступе и для русского языка? Пробовал Яндекс СпичКит для рашифровки разговоров операторов интернет-магазина — ничего путного не выдает.
Sign up to leave a comment.

Articles