Comments 31
Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.
То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.
Тщательнее надо!
The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.
То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.
Тщательнее надо!
Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.
Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.
У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
И да, спасибо за комментарий.
Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
И да, спасибо за комментарий.
Ну отлично. Остальсь эту систему «прикрутить» к YouTube.
Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.
В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.
Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?
Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?
В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.
Вот кстати да.
Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.
PS Я думаю все эти исследования — про английский.
С русским будет хуже.
Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.
PS Я думаю все эти исследования — про английский.
С русским будет хуже.
И как всегда — никакого продукта в результате, одни сервисы
>После 2 000 часов обучения человеческой речи по этим же аудиофайлам
Это нормально — проверять нейросети на том же материале, на котором они и обучались?!
Это нормально — проверять нейросети на том же материале, на котором они и обучались?!
Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.
Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.
Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.
Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.
Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.
При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.
Не переживайте, такая проблема не только у вас.
Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.
Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.
CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/
Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!
Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.
Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.
Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).
А есть что-то подобное в открытом доступе и для русского языка? Пробовал Яндекс СпичКит для рашифровки разговоров операторов интернет-магазина — ничего путного не выдает.
Sign up to leave a comment.
Система распознавания речи Microsoft достигла человеческого уровня