Комментарии / Профиль domage / Хабр

Глеб Радченко@domage

Пользователь

Подписчики

Распознавание речи. Часть 2. Типичная структура системы распознавания речи

domage 16 июл 2009 в 06:27

В зависимости от алгоритма — по-разному.
В моей реализации — два измерения: дискретное время (кадр) и вейвлетные коэффициэнты. Грубо говоря, 10 коэффициентов на кадр.
Я подробнее буду рассказывать дальше.

Распознавание речи. Часть 2. Типичная структура системы распознавания речи

domage 16 июл 2009 в 06:23

Да естественно. Если выложить сразу много, то читать будет скушно. А если постепенно — то кто-нибудь может и втянуться (как показала практика наркодиллеров ;0)) )
Следующая часть будет очень интересная, кстати.

Акцент — может влиять существенно, особенно в дикторонезависимых системах, наученых исключительно на носителях языка. Если обучал «носитель» акцента, то качественно можно будет распознать только его речь.

Заложенность носа — может влиять не очень существенно, но может значительно исказить результаты распознавания диктора (т.е. не распознавание фразы, но распознавание того, кто говорил).

В принципе, все зависит от конкретной реализации системы распознавания.

Фильтрация, естественно, производится. С фильтров выделяется спектр речи (0.3 — 3.4 kHz), пытаются максимально отсечь посторонние шумы. На фокализованых звуках (гласных, звонких согласных) это делать относительно легко. Главное — не затереть шипящие и другие невокализованные участки.

Распознавание речи. Часть 2. Типичная структура системы распознавания речи

domage 16 июл 2009 в 05:30

Я в следующих частях этот вопрос постараюсь чуточку осветить.
Основной принцип: необходимо входной сигнал «сжать/расширить» до требуемого шаблона. Т.е. если мы распознаем команды, то находим среднее значение временного промежутка для всех из них. Грубо говоря, 1 с. И все входные сигналы (от начала речи до конца речи) масштабируем до этого времени.
Причем мастабировать надо так, чтобы частота входного сигнала не изменилась, иначе вносятся значительные искажения.
Простейший вариант — как показано на картинке: дублируем сигнал и накладываем сам на себя (с учетом заданного линейного затухания). При масштабировании с коэффициентом до 1.3-1.5 качество сигнала на выходе получается достаточное.

Распознавание речи. Часть 2. Типичная структура системы распознавания речи

domage 16 июл 2009 в 04:31

Спасибо

Распознавание речи. Часть 1. Классификация систем распознавания речи

domage 15 июл 2009 в 19:05

Можешь сразу ссылку кинуть сюда?

Распознавание речи. Часть 1. Классификация систем распознавания речи

domage 15 июл 2009 в 18:54

Промолчу, ибо не компетентен :0)
И про прослушку знаю не больше, чем в «Популярной Механике» пишут.

Распознавание речи. Часть 1. Классификация систем распознавания речи

domage 15 июл 2009 в 18:52

Сколько — пока не знаю точно.
Пока думаю что не меньше 3-4 частей обзорных.
Дальше — война план покажет.

Что расскажу — вот тут написал: domage.habrahabr.ru/blog/64572/#comment_1797664

Распознавание речи. Часть 1. Классификация систем распознавания речи

domage 15 июл 2009 в 18:50

Посмотрим как пойдет.
Мат аппарат будет обязательно (правда, боюсь с формулами тут придется повозиться).
Хотя бы в общих чертах расскажу про цепи маркова, вейвлеты, фильтрацию. От нейросетей тоже никуда не деться.
А с реализованными библиотеками будет труднее: без испытания про них говорить нечего, а на это требуется тьма времени…

Распознавание речи. Часть 1. Классификация систем распознавания речи

domage 15 июл 2009 в 18:47

Ах эти вейвлеты…
Да, про них буду писать. К сожалению, сил пока нет скомпоновать всю библиографию, но для затравки — самое оно (практически библия распознавателя речи):
Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. – 980 с.
У меня где-то была, как найду — выложу обязательно.

Распознавание речи. Часть 1. Классификация систем распознавания речи

domage 15 июл 2009 в 18:41

Про применение систем распознавания речи в спецслужбах я могу только многозначительно промолчать. Если уж Google позволил себе сделать свободно-доступной систему логов телефонных разговоров, то за ширмой, я думаю, уже выжали из этой технологии все что возможно. И анализ эмоций, и распознавание диктора, и поиск по «слову-маркеру»…
В той ссылке которую вы дали, насколько я понял, ведется речь об анализе речи на предмет эмоциональной насыщенности. При этом, про распознавание слов и речи ничего не говорится.

Скорее всего, оно уже реализовано, и если вы по междугородге говорите на чистейшем англицком — то, скорее всего, вы уже записаны ;0) А вот с русскими словарями, к сожалению, пока что проблемы…

Ломаем каптчу Яндекса

domage 15 июл 2009 в 17:27

Угу! :0)
Именно поэтому и невозможен на сегодняшний день «универсальный распознаватель капч». Он будет слишком сильно тормознутый, и будет не более полезен на практике чем «сферический конь в вакууме».
Суживаем задачу — получаем требуемый результат за приемлемое время.

Ломаем каптчу Яндекса

domage 15 июл 2009 в 17:10

Ну да, с дипломом я переборщил.
А насчет «незначительной смены алгоритма искажений»: все зависит от поставленной задачи. Если задача состоит в том, чтобы «распознать вот такой вот тип капчи у Яндекса», то любая заточка уместна. Незначительная смена — нашим легче, незначительно меняем алгоритм распознавалки.

Вы же сами остановились на двух синусоидах в начале :0) Это ли не заточка?
Ведь превратись две черты в логистические кривые, ваш алгоритм уже не заработает. А почему? Потому что задачу «распознать любую наперед заданную капчу» в обозримом будущем не решить. Поэтому и приходится только уповать на то, что новая капча будет из разряда тех, которые мы распознавать умеем.

Ломаем каптчу Яндекса

domage 15 июл 2009 в 16:51

А подобрать параметры преобразования можно на основе уже сделанного вами алгоритма формирования синусоиды: надо подобрать еще две, снизу и сверху. Можно исходить из критерия «минимум точек с одной стороны — максимум с другой». После этого найти оси соответствующих синусоид и произвести «выравнивание» изображений.

Скорее всего, это на порядок увеличит время работы алгоритма (но не думаю, что больше чем в 10 раз) и качество оценки (не думаю, что меньше чем в 10 раз). Естественно оценку эффективности придется делать, а то это среднее потолочное.
Просто тогда значительно увеличится «похожесть» цифр, и значительно уменьшится расстояние между подобными образами, а это очень хорошо влияет на качетсво распознавания нейросетей.

Вот сижу сейчас и понимаю что это был бы очень-очень хороший дипломный проект бы… Всучить-бы кому-нибудь на доработку… Причем как раз по приме ;0)

Ломаем каптчу Яндекса

domage 15 июл 2009 в 12:10

Я имел в виду искажения самих цифр.
Чем четче сигнал вы подаете в нейросеть, тем лучше результаты распознавания.
Поэтому если можно минимизировать возможные искажения входного сигнала, надо прибегнуть к фильтрации до процедуры распознавания.
В данном случае, я посмотрел несколько вариантов вывода капчи у Яндекса, и пришел к выводу, что искажение начертания цифр также определяется двумя синусоидами — сверху и снизу. Таким образом, их можно лекго выровнять, если применить обратное преобразование.

Ломаем каптчу Яндекса

domage 15 июл 2009 в 11:54

Отлично! :0)
Единсвтенное, почему-то не упоминаются возможные пути улучшения результата работы алгоритма (уж слишком хорошо буковки вписываются в две синусоиды по снизу и по верху). Думается, если сделать обратную трансформацию, качество распознавания можно улучшить на порядок (по собственному опыту разработки системы распознавания речи).

Хотя мне кажется, что после этой статейки этому варианту капчи на Яндексе осталось не больше двух недель…

OpenSource Система электронных дневников

domage 12 июл 2009 в 12:26

Практика внедрения электронных дневников в учебные заведения (на моей памяти — порядка 5-и попыток) показала, что главная проблема — административная. Если кто-либо знает, как заставить преподавателя дублировать актуальную информацию из школьного журнала в «электронную» — выслушаю с превеликой радостью.
До настоящего момента, все попытки внедрения электронных журналов заканчивались на 2-3-й неделе, после того как преподаватели, один за другим переставали копировать оценки :0(

1 2 3 4

Информация

Специализация