Как стать автором
Обновить

Комментарии 31

Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.

The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.


То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.

Тщательнее надо!
Спасибо, исправлено
> (прослушка)
Дополнению к пакету Яровой: весь Voice трафик должен проходить через систему распознавания речи и анализироваться в реальном времени на предмет угроз обществу.
Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.

Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.

У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
И да, спасибо за комментарий.
И тем не менее, статья не имеет никакого отношения ни к Скайпу, ни к переводу.
НЛО прилетело и опубликовало эту надпись здесь
Ну отлично. Остальсь эту систему «прикрутить» к YouTube.
Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.
Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?
В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.
Вот кстати да.
Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.

PS Я думаю все эти исследования — про английский.
С русским будет хуже.
И как всегда — никакого продукта в результате, одни сервисы
Чукча не писатель, сервис не продукт!
>После 2 000 часов обучения человеческой речи по этим же аудиофайлам
Это нормально — проверять нейросети на том же материале, на котором они и обучались?!
Это неоднозначное построение предложения, скорее всего «по этим же» относится к стенографистам, а не к процессу обучения.
Есть такая штука как кросс-валидация.
Будь уверен, в MS Research дураков нет, они знают на чем можно проверять а на чем — нет.
Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.

Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.
Темой промахнулся :(
Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.
Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.
Не переживайте, такая проблема не только у вас.

Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.

Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.

CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/
Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!
Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.
Речь о распознавании, а не о понимании\анализе.
Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.
Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).
А есть что-то подобное в открытом доступе и для русского языка? Пробовал Яндекс СпичКит для рашифровки разговоров операторов интернет-магазина — ничего путного не выдает.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории