@intelligenceAgent Nov 5 2009 at 15:27

Применение нейросетей в распознавании изображений

10 min

246K

Artificial Intelligence

+128

Comments 73

@Horus20 Nov 5 2009 at 16:14

Огромное спасибо за статью, для себя подчерпнул довольно много нового.

@Ferroman Nov 5 2009 at 16:38

Познавательно.
За список литературы — отдельное спасибо.

@Levsha100 Nov 5 2009 at 16:49

Пытался я освоить нейросети, но как-то не пошло. Видимо из-за, как мне показалось, их медлительности…

@Quadrix Nov 5 2009 at 20:31

Работает сама нейросеть довольно быстро. Медленно лишь ее «обучение», когда необходимо тысячи, миллионы раз прогнать ее по множеству обучающих наборов, шаблонов.

@Vordigont Nov 5 2009 at 17:05

Длинная статья, но интересная :) Много чего нового узнал. Спасибо :)

@ImKremen Nov 5 2009 at 17:09

«Большинство людей под «обычными» или «классическими» нейросетями понимает полносвязные нейронные сеть прямого распространения с обратным распространением ошибки»

Большинство людей не поймут о чем это предложение =)

@intelligenceAgent Nov 5 2009 at 21:33

Согласен, не совсем прозрачно написал. Да еще и опечатка.

@unlying Nov 5 2009 at 17:11

А не подскажете, где можно почитать про распознавание изображений с помощью радиально-базисных сетей?
А то везде, где ищу пишут, примерно как у вас «также успешно используются радиальные базисные функции». Заменяя слово «успешно» на «возможно», «можно» и т.п.

@bab1n Nov 5 2009 at 17:18

1) ISBN 5-03-002115-9; Саймон Хайкин «Нейронные сети: полный курс»
2) ISBN 5-279-02567-4, 83-7207-187-X; Станислав Осовский «Нейронные сети для обработки информации»

@unlying Nov 5 2009 at 17:36

читал. Про радиально-базисные сети написано, математики много, особенно в Хайкине, а вот про распознавание изображений — нет.

@bab1n Nov 5 2009 at 17:42

Вам конкретный пример что-ли нужен?

@unlying Nov 5 2009 at 17:45

мне надо как в этой статье.

UFO landed and left these words here

@Vlad911 Dec 29 2009 at 11:14

В любом случае, Хайкин это самая доступная на прилавках и самая познавательная книга по ИНС, которую я когда-либо находил.

@intelligenceAgent Nov 5 2009 at 21:32

На русском языке по использованию RBF в распознавании изображений я ничего не видел. Да и вообще мало чего есть современного в этой области на русском. В качестве примера могу предложить статью Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, November 1998.
Радиальные базисные сети редко используются самостоятельно в задачах распознавания изображений. Их обычно ставят на выходе. Смысл их можно приблизительно пояснить следующим сравнением: если функции активации такие как линейная, логистическая, тангенциальная и другие делят гиперпространство гиперплоскостью (читать как делят плоскость на две области прямой), то радиальные базисные функции активации делят гиперпространство на «внутри сферы» и «вне сферы», что в задачах классификации часто бывает полезно.

@unlying Nov 6 2009 at 13:22

спасибо

@ekzo Nov 5 2009 at 17:49

ох понадобится мне это через два месяца для сессии.

@Smerig Nov 6 2009 at 06:49

Вряд ли это понадобится для сессии :) Вот для кандидатской или дипломного проекта ещё может понадобиться :)

@d7p4x Nov 6 2009 at 08:30

Пожалуй не соглашусь, у нас (Спбгпу) это расчетное задание — распознавания образов — для получения зачета.

@Smerig Nov 7 2009 at 09:15

ну мне кажется, то, что здесь описано, сложновато. Для зачёта хватит и обычного персептрона.

@FTM Nov 5 2009 at 18:30

Статья супер! Спасибо. Наконец-то что-то новое для себя почерпнул.

@valyard Nov 5 2009 at 19:43

Фундаментально. С каждой такой статьей эта тема мне становится все более интересна. Придется как-нибудь углубиться.

@volanddd Nov 5 2009 at 19:55

а теперь понимаем что нейросети понимают каптчу лучше человека и отказываемся от каптчи

@Crack Nov 5 2009 at 20:09

каптча еще актуальна, ввиду сложности создания подобных решений и отсутствия плаг-н-плай модулей. спамерам еще прийдется попотеть для реализации подобного

@volanddd Nov 5 2009 at 20:11

а когда реализуют?

@Crack Nov 5 2009 at 20:27

сложно сказать. но глубоко надеюсь, что данная проблема не будет решаться каким-нибудь таким образом. Это должны быть алгоритмы классификации, которые на основе обученной сети по входным признакам будут определять на выходе является ли пользователь роботом, или нет

@Quadrix Nov 5 2009 at 20:38

Указанный Вами «какой-нибудь такой» способ решается по первому кадру или по некоторому из кадров где получена максимальная достоверность распознанных образов.

Сложное это дело — капчи.

UFO landed and left these words here

@fata1ex Nov 5 2009 at 20:11

Впечатляет. Очень хорошая статья, спасибо :)
ps. добавьте абзацы перед заголовками (названиями разделов), так, пожалуй, будет лучше )

UFO landed and left these words here

@Shchvova Nov 5 2009 at 21:45

Очень познавательно… Ещё, мне кошек стало жалко…

@ererer Nov 6 2009 at 04:01

Как приятно видеть на хабре такие статьи. Сам минувшими весной-летом очень увлёкся convolutional networks. Клюнул именно на заявленную «мозгоподобность» сетей, что в общем-то местами похоже на правду. А если верить Jew Hawkins «On intelligence», где довольно убедительно говорится, что области кортекса мозга не имеют ярко выраженной специализации и одинаково обрабатывают всю входящую информацию (будь то зрительные, звуковые, сенсорные или даже логические образы) — то свёрточная сеть представлялась мне универсальным распознователем или хотя бы классификатором (хотя я замахнулся сразу на задачи кластеризации). Однако эксперимент, подтверждённый затем логическими выкладками, показал, что механизм выделения локальных признаков, кроме изображений, ограниченно полезен лишь в обработке звуков, и совершенно бесполезен в наиболее интересной мне задаче кластеризации текстов. Это вызвало у меня довольно сильное разочарование в свёрточных сетях (хотя они по большому счёту не виноваты =) просто мозгоподобность тут не при чём) и заставило вернуться к извращениям над картами Кохонена.
И всё же большое вам спасибо за просвещение, если я правильно помню, то до вас на русском языке видел лишь одну махонькую заметку о свёрточных сетях =) Пишите ещё, пожалуйста.

@Smerig Nov 6 2009 at 06:53

может для кластеризации текстов надо использовать НС с обучением без учителя? (Хотя Вы и сами об этом знаете :D )

Ну вот вижу, что да, просто хотелось найти какой-нибудь новый метод, взамен карт Кохонена.

@Smerig Nov 6 2009 at 06:54

кстати, стукните в личку, есть у меня знакомый, занимался кластеризацией текста. Может, Вам будет о чём поговорить

@intelligenceAgent Nov 6 2009 at 07:56

Для вас важно именно кластеризовать? Потому что если вам в дальнейшем все равно нужно его распознавать, то можно использовать space displacement convolutional network. По сути это то же, о чем я написал, только окошко размером 32х32 гоняется по всему изображению и у нас для каждого его участка получается вектор, который сообщает, какова вероятность, что на этом месте есть буква, и какая эта буква. Эти вероятности уже можно использовать для дальнейшего анализа.

@ererer Nov 6 2009 at 10:20

Да, я видимо не совсем ясно выразился =) Текст не требует распознования, это обычный электронный документ — его надо только «отсортировать» по тематике (document clustering, задача data mining в общем-то, но у нас немного особый подход). Работающий пример — WEBSOM. Но мы делаем штуку, которая работает в реальном времени (а не пакетно), осуществляет нечёткую кластеризацию и не боится выбросов.

@intelligenceAgent Nov 9 2009 at 06:06

Тогда действительно здесь СНС вряд ли будут полезны. Успехов вам.

@Indalo Nov 6 2009 at 05:00

Я тоже недавно столкнулся со свёрточными сетями и хотел изучить их поближе. Теперь есть от чего оттолкнуться. :)

Кстати, по поводу выбора архитектуры сети. Известно, что SVM с ядром определённой конфигурации (RBF в том числе) будет эквивалетен двуслойной нейросети. При этом количество нейронов на скрытых слоях определяется автоматически (в оптимальном ключе).

@intelligenceAgent Nov 6 2009 at 05:56

Да, на счет SVM вы правы, но это все же shallow-архитектура (поверхностная). Линейная комбинация нелинейных ядер, как в SVM, не даст возможности обучения глубоким иерархиям.

@Indalo Nov 6 2009 at 06:52

Что понимается под глубокими иерархиями?

@intelligenceAgent Nov 6 2009 at 07:50

Имеются ввиду сложные многомерные функции. С одной стороны SVM, являющийся по сути механизмом взвешенного сравнения с шаблоном, а с другой стороны «глубокие архитектуры», одним из частных случаев которых являются нейронные сети. Почитать об этом можно, например, здесь Hinton, G. E., Osindero, S. and Teh, Y. (2006) A fast learning algorithm for deep belief nets. Neural Computation, 18, pp 1527-1554.
В т.н. глубоких архитектурах низкоуровневые признаки объединяются в высокоуровневые абстрактные представления. Для SVM при определенном усложнении задачи наступает проклятье размерности — их становится просто не выгодно использовать.

@kostyl Nov 6 2009 at 07:35

Хорошая статься, но было бы неплохо написать про такие бяки нейросетей, как «несходимость» и «насыщение» и методы их решения с примерами. Я бы было вообще доволен.

@intelligenceAgent Nov 6 2009 at 08:06

Да, есть такие проблемы и есть трюки чтобы их избегать. Очень важно здесь обеспечить линейное функционирование сети на первых шагах обучения. Это обычно достигается за счет правильной инициализации весов и предобработки входов.

@Alver Nov 6 2009 at 08:13

скажите, а с библиотекой FANN (http://leenissen.dk/fann/) вам не приходилось иметь дело?

@intelligenceAgent Nov 6 2009 at 08:34

Только на уровне знакомства. Насколько я знаю, FANN не поддерживают сверточные сети.

@ennui Nov 6 2009 at 08:18

3ая лаба из универа по предмету «Цифровая обработка сигналов».

@intelligenceAgent Nov 6 2009 at 08:38

Лаба именно по сверточным НС? Если да, то какой инструментарий используете?

@ennui Nov 6 2009 at 09:02

Да, там серия лабараторных по различным нейронным сетям, только задачи чуть по проще. Про инструменты не понял, писал на C#, библиотек не использовал.

@shitware Nov 6 2009 at 10:29

эх запахло универом и лабами :)

@nightstalker Nov 6 2009 at 14:12

Спасибо за статью. Вспомнил лабы в универе (больше практиковаться в нейросетях не приходилось). Приятно видеть что в альма-матер еще остались грамотные специалисты.

@krosh Nov 6 2009 at 17:16

Спасибо.
Очень интересно было читать, правда понимал через раз, но это проблема уже моего образования.
Было бы интересно почитать основы НС с примерами.

@KKS Nov 6 2009 at 17:23

А у нас как раз сейчас подходит к концу срок сдачи лабораторной по перцептронам и распознаванию изображений цифр, кому-нибудь будет интересно увидеть реализацию на java? Однослойная сеть конечно куда проще описанного, но для начинающих более понятна, думаю.

Сам впервые столкнулся с нейронными сетями, поэтому подобные статьи очень полезны, спасибо автору.

@jcdenton_dx Nov 18 2009 at 19:37

Спасибо, автор

@jcdenton_dx Nov 19 2009 at 20:46

чисто технически меня интересует вопрос — почему за «спасибо автор» сегодня минусуют?

@jcdenton_dx Nov 20 2009 at 20:01

Спасибо плюсующим

@milker Dec 18 2009 at 17:05

intelligenceAgent: А вы не рассматривали технологию HTM (http://en.wikipedia.org/wiki/Hierarchical_temporal_memory), которую с натяжкой можно назвать «не стандартной» нейронной сетью, для задач распознавания изображений. Интересно ваше мнение.

@intelligenceAgent Dec 18 2009 at 21:54

Спасибо за наводку. Прочитал по диагонали диссертацию тов. Dileep. (У нас бы такую совет не пропустил =)) Очень интересная штука этот HTM, в диссертации выдвигаются правильные идеи, которые мне лично уже давно не дают покоя — например, учет временных свойств изображений объектов для лучшего распознавания. Интересна комбинация цепей маркова, иерархичности, сетей доверия. Сама работа написана грамотно.
Однако, тут пока еще рано о чем-то судить. В диссертации очень мало внимания уделяется экспериментальной проверке идей. По большому счету там 150 стр. теории и 5 страниц результатов экспериментов, хотя по нормальному должно быть хотя бы 80%-20%. Более того автор приводит некую свою довольно примитивную базу бинарных изображений, показывает, что качество распознавания на тестовом множестве составило 57% (что не очень хорошо). И сравнивает результат с nearest-neighbour классификатором, т.е. одним из простейших.
Тут можно сказать, что софт реализующий распознавание более сложных объектов реализован и лежит на сайте, но как раз о нем никаких статей и сравнений качества распознавания применяемых там алгоритмов я не нашел.
Возможно я чего-то не знаю. Если у вас есть ссылки на другие статьи по использованию HTM в задачах распознавания, буду рад их получить.

@milker Dec 21 2009 at 16:32

Вообще меня вдохновили теория интелекта, изложенная в книге Джефа Хокинга «Об интелекте» — en.wikipedia.org/wiki/On_Intelligence. Я не специалист в этой области, но такая элегантная теория не может быть ложной по сути :) Да, действительно, трудно найти что-либо в сети… Мне показалась эта статья интересной www98.griffith.edu.au/dspace/handle/10072/23558 — сравнивается HTM и SVM для тойже задачи распознавания рукописных символов.

@intelligenceAgent Dec 22 2009 at 09:35

Идеи интересны. Однако меня удивило утверждение, будто ученые, работающие в области AI игнорируют исследования в области нейронаук. По моему, в последнее время, эти две области очень тесно переплетаются.
Кроме того, не будем забывать, что Хокинг бизнесмен. Это очень заметно, когда начинаешь искать литературу: очень много инрервью, рекламы, разговоров. Но очень мало научных статей и ссылок в оных на его работы.
На самом деле интересных идей довольно много, но, к сожалению, мало научно-популярных книг, объясняющих эти идеи, таких как On Intelligence.

@milker Dec 22 2009 at 21:29

Ну бизнесмен — это скорее способ быть связанным с практикой, реально создать что-нибудь :)

@Nashev Feb 13 2010 at 15:39

В 3-ем пункте стоило бы упомянуть, что теоретически, первые слои простой сети тоже могут в процессе обучения выродиться в такую же свёрточную прослойку за счёт обнуления большинства коэффициентов. т.е. что такая свёрточная архитектура — фактически подмножество обычной ПНС.

@intelligenceAgent Feb 13 2010 at 20:50

Можно конечно определенным образом многократно продублировать разделяемые веса так, чтобы получился полносвязный слой (развертка). Но далее нужен субдискретизирующий слой, а к тому же при первом же проходе обратного распространения ошибки эффект разделяемых весов исчезнет.

@Nashev Feb 13 2010 at 15:41

кста, картинки только у меня больше не показываются, ругаясь на лимиит показов и неиспользование превьюшки?

@intelligenceAgent Feb 13 2010 at 19:46

Проблема есть. Решаю.

@Nashev Feb 15 2010 at 15:47

Мне после моей жалобы и некоторой аргументации, из imagepost.ru ответили фразой «Снял для Вас это ограничение.» И нынче я картинки тут все вижу.

P.S.: Очень внятный человек от них общается. Спасибо ему.

@peterdemin Apr 16 2010 at 09:46

Картинки не грузятся

@intelligenceAgent Apr 18 2010 at 07:13

Это из за проблем с макхостом. Обещают восстановить в ближайшие дни.
А вообще конечно не буду больше imagehost использовать, у них и до этого проблемы были.

@Bagobor May 11 2010 at 15:25

Присоединяюсь к просьбе исправить картинки с imagepost.ru/.
Спасибо!

@intelligenceAgent May 11 2010 at 18:38

Часть картинок нашел, перезалил на более надежный сервис, часть переделал (спасибо Google Charts API). Теперь должно выдержать третью мировую =)

@Bagobor May 11 2010 at 18:58

Большое спасибо! (на + пороха пока не набрал)

UFO landed and left these words here

@intelligenceAgent Jul 8 2010 at 08:15

Считается усреднением. Т.е. если подходить к вопросу классически как в полносвязной сети, то для каждого разделяемого веса у вас будет получаться множество ошибок. Вычисляем среднее и получаем ошибку для данного разделяемого веса в ядре. Смысл введенного ограничения на веса — способности к обобщению, усреднение градиентов именно к этому и ведет. Веса становятся инвариантны к локальным особенностям изображения и лучше реагируют на независимые фичи.