Мысли вслух: распознание текста.

    1. Первый момент по поводу распознания рукописного текста с помощью нейронных сетей.

    «Летом 1987 я получил опыт, который еще больше охладил мой и так невысокий энтузиазм относительно нейронных сетей. Я пришел на конференцию по нейронным сетям, где я увидел презентацию, устроенную компанией, называемой Nestor. Nestor пыталась продать приложение на нейронной сети для распознавания рукописных символов на подложке. Она предлагала лицензию на программу за один миллион долларов. Это привлекло мое внимание. Хотя Nestor провела улучшение алгоритма ее нейронной сети и рекламировала ее как еще один большой прорыв, я чувствовал, что проблема распознавания рукописных символов могла бы быть решена более простым, более традиционным путем. Я пришел домой той ночью, размышляя о проблеме, и за два дня разработал распознаватель рукописных символов который был быстрым, маленьким и гибким. Мое решение не использовало нейронную сеть и оно работало совершенно не так, как мозг. Хотя эта конференция разожгла мой интерес в разработке компьютеров со стилусом (в конечном счете приведший к проекту PalmPilot десять лет спустя), это также убедило меня, что нейронные сети были не таким уж большим улучшением по сравнению с традиционными методами. Распознаватель рукописных символов, который я создал, пригодился в конечном счете для системы текстового ввода, названной Graffiti, использованной в первых сериях продукции Palm. Я думаю, компания Nestor ушла из бизнеса». Джеф Хокинс, «Об интеллекте»

    В своей книге Джеф предлагает теорию искусственного интеллекта, предполагающую его в виде нейронной сети, повторяющую структурой неокортекс, кору головного мозга. В своей теории он объясняет интеллектуальность моделью «память-предсказание» и инвариантным представлением данных:

    Piccy.info - Free Image Hosting

    2. Второй момент, распознавание текста – это, прежде всего интеллектуальная задача, даже если не ставить задачу, чтобы компьютер понимал текст, а такую, чтобы он просто переводил рукописный текст в цифровой формат, пригодный для дальнейшей обработки (ASCII) – все равно КПД распознавания с помощью «простых» нейронных сетей будет небольшим. Вспомнить хотя бы почерк врачей…

    Также когда совершенно непонятна какая-нибудь буква, тем не менее, человек способен понять слово или текст целиком из контекста.

    То есть в принципе реально улучшать существующие алгоритмы распознавания, но абсолютно любой почерк (а малейшее отклонение от шаблона в традиционных алгоритмах ведет к ошибке) распознать не удастся, а компьютер так и будет читать текст как дошкольник, по буквам, разделяя пробелами рукописный текст.

    В то время как взрослый человек читает слова целиком:

    «По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом».

    3. Ещё один момент относительно работы мозга:

    «В этом случае, неожиданное открытие пришло из базовой анатомии самого кортекса, но потребовался необычайно догадливый разум, чтоб распознать его. Это был Вернон Монткастл, нейрофизиолог из университета Джона Хопкинса в Балтиморе. В 1978 году он опубликовал статью, названную «Организационные принципы Церебральных Функций». В этом документе Монткастл указал, что неокортекс удивительно однороден по виду и структуре. Области неокортекса, которые оперируют слуховой информацией, похожи на области, оперирующие с осязанием, управлением мускулатурой, языковую область Брока, практически как любые области неокортекса. Монткастл предположил, что поскольку эти области выглядят одинаково, они действительно выполняют одну и ту же базовую операцию! Он предположил, что кортекс использует один и тот же вычислительный инструмент для всего, чем он занимается». Джеф Хокинс.

    Однако остается вопрос, как волны, световые, звуковые сохраняются в неокортексе в виде паттернов?..

    «Грубо говоря, Фурье разработал математический метод перевода паттерна любой сложности на язык простых волн. Он также показал, как эти волновые формы могут быть преобразованы в первоначальный паттерн. Другими словами, подобно тому, как телевизионная камера переводит визуальный образ в электромагнитные частоты [8], а телевизор восстанавливает по ним первоначальный образ, математический аппарат, разработанный Фурье, преобразует паттерны. Уравнения, используемые для перевода образов в волновую форму и обратно, известны как преобразования Фурье. Именно они позволили Габору перевести изображение объекта в интерференционное «пятно» на голографической пленке, а также изобрести способ обратного преобразования интерференционных паттернов в первоначальное изображение». Майкл Талбот, «Голографическая вселенная».

    В целом же, мозг по свойствам похож на голограмму, например, вмещает огромное количество информации в относительно маленьком объеме. Как пленка голограммы, освещаемая лазером под разным углом, выдает много различной, прежде записанной информации, так и память человека, при изменении сознания, естественном («настроение», «гормоны» — в т.ч. эндорфин, и т.п.) или с помощью «медиаторов» (алкоголь, табак, прочие наркотики), выдает различную информацию, в том числе различные оценки одних и тех фактов.

    «Теория Прибрама-Бома
    Если соединить теории Бома и Прибрама, мы получим радикально новый взгляд на мир: наш мозг математически конструирует объективную реальность путем обработки частот, пришедших из другого измерения – более глубокого порядка существования, находящегося за пределами пространства и времени. Мозг – это голограмма, свернутая в голографической вселенной». Майкл Талбот, «Голографическая вселенная».


    4. Для распознания рукописного текста, просто текста или какой-нибудь иной информации вроде визуальных образов и звука с помощью нейронных сетей, компьютеру необходим внушительный объем памяти. Нейронная сеть, повторяющая структуру неокортекса обладает серьезным потенциалом в этом смысле.

    Вывод:

    Для построения системы распознания рукописного текста можно использовать нейронную сеть, с шестислойной структурой, повторяющей основные принципы строения неокортекса.

    Основной принцип работы – использование модели «память-предсказание». То есть, система не должна будет высчитывать ответ, соответствие между рукописным текстом и ASCII-кодом, а «доставать его из памяти». В связи с чем, система должна довольно длительное время проходить обучение (запоминание).

    Первоначальное обучение должно проходить «в ручном режиме», с постоянным контролем результата, впоследствии можно перейти к автоматическому непрерывному обучению. Для этой цели может существовать специальная вспомогательная обучающая программа, которая будет предоставлять системе визуальные образы и соответствующие ASCII-коды.

    При удачной разработке данного комплекса, он сможет распознавать, после соответствующего обучения, не только рукописный текст, но и прочую информацию, визуальную и звуковую, т.е. любую информацию, которую первоначально можно представить в виде волн.

    06.2007

    PS*. «Дзен». :)

    Визуальная информация идет от глаз через таламус головного мозга – «глаз на вершине», откуда поднимается, «расширяясь», по коре головного мозга до основания воображаемой пирамиды. Только по мере расширения «пирамиды» информация конкретизируется, а в вершине у одного «кванта» информации «много путей» для дальнейшего хода. То есть пирамида представляет собой не столько структуру представления данных, а путь единицы информации в неокортексе.

    С другой стороны, если пирамиду не переворачивать, то получится следующее: информация поступает в кору головного мозга, поступает в «основание пирамиды», откуда следуя определенному «алгоритму», конкретизируется к вершине пирамиды и, попадая «в глаз на вершине пирамиды», представляет собой собственно то, что мы «думаем, что видим». В соответствии с этой точкой зрения, верен принцип интеллектуального выбора видимой информации, то есть видимая интеллекту информация зависит от интеллекта и тех «алгоритмов», которым он следует, что подтверждает гипотезу «о принципе относительности информации».

    Синтез этих двух точек зрения может дать общее представление о распознании интеллектом визуальной информации.

    Piccy.info - Free Image Hosting

    Поступающая в «интеллектуальную систему» визуальная информация подвергается одновременной обработке двумя (или более) противоположными процессами. Первый процесс предоставляет множество путей, возможных вариантов истолкования информации. Второй процесс, следуя определенному правилу, алгоритму, конкретизирует поступающую информацию. Тогда, то, что мы видим — результат взаимодействия двух противоположных процессов.

    PPS. Ну и кто тот Мастер, что делает траву зеленой? :)
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 49

    • UFO just landed and posted this here
        –1
        Мудак
        +3
        Эх, года 4 назад писал что-то подобное.
        Сидишь потом и обучаешь свое дитя. Могло точно указать на конкретную букву, написанную более или менее разборчивым почерком.
        Начал слоить сеть, дабы обучалась всему алфавиту, но в итоге не хватило цпу для приятной работы с этим добром.
        • UFO just landed and posted this here
            +4
            Видимо, автор решил как-то блеснуть знанием материала (на который недавно была ссылка в смежном топике: habrahabr.ru/blogs/artificial_intelligence/46824/#comment_1196513). Притягивание НС к ИИ с использованием цитат из Хокинса — это вообще даже как-то некрасиво и смахивает на натуральную спекуляцию.
            Хокинс на нескольких страницах разжёвывает, почему он отошёл от идеи моделирования ИИ с помощью НС.
              0
              и к чему же он пришел?
                0
                HTM — hierarchy time memory иерархическая временнАя память основное звено теории память-предсказание
                  0
                  какой он молодец :)
              0
              конкретно какой конкретики? :)
              • UFO just landed and posted this here
                  0
                  ну вроде как неокортекс — шестислойный…
                +3
                > В своей книге Джеф предлагает теорию искусственного интеллекта, предполагающую его в виде нейронной сети, повторяющую структурой неокортекс, кору головного мозга
                Вы пищите эту, извиняюсь, ахинею после цитаты самого Хокинса, где он дословно пишет: «что нейронные сети были не таким уж большим улучшением по сравнению с традиционными методами».
                Извините, но Вы не поняли книгу. Или зачем-то пытаетесь преподнести нечто вроде рецензии, не прочитав её толком.
                Хокинс как раз пишет, что нейронные сети не оправдали себя с его т.з… И НИГДЕ он не предполагает ИИ как нейронную сеть, да ещё и повторяющую структурой неокортекс :)
                  0
                  лишнее слово — «искусственного» зачеркнул.
                  0
                  Человек может прочитать текст даже если там не хватает букв и некоторые буквы переставлены местами. Можно делать анализ по словарю и выбирать слово которое занимает более ревалентность.
                    0
                    Человек использует не только «словарь». Он ещё использует своё знание об окружающем мире, контекст, в котором встретилось слово. А если нет контекста, то знания об авторе, который это слово написал.
                    +1
                    Джеф Хокинс — между прочим его книга очень хорошо, это лучшее что я читал по ИИ, интеллекту в частности

                    Есть много ключевых моментов, про которые никто даже не задумывается

                    Так что советую прочитать всем, учитывая что книжка на 150 листов) за пару вечеров можно без проблем прочесть
                      +3
                      Грубо говоря, Фурье разработал математический метод перевода паттерна любой сложности на язык простых волн. Он также показал, как эти волновые формы могут быть преобразованы в первоначальный паттерн.

                      Грубо говоря, он показал, что это невозможно. То, что возможно восстановление с конечной точностью доказали много позже.
                        +1
                        Про нтсонжавеь птсоньлетаводелсои бкув вртуни слова — это пёдзиж.
                          0
                          птсоньлетаводелсои — это жесть.
                          Прогу напишу 4fun, чтобы подтвердить важность последовательности букв в словах.
                            0
                            Данная комбинация букв превышает емкость кратковременной памяти (кошелек Миллера) — 7±2 элемента. Под элементами имеются в виду отдельные буквы или ненарушенные буквосочетания из исходного текста. Считаем: (п)(т)(с)(о)(н)(ь)(ле)(т)(а)(в)(о)(д)(ел)(с)(о)(и) — целых 14 элементов. Поэтому автораспознавания не происходит.
                              0
                              келешок Мреллиа?
                                0
                                тут видимо ещё влияет насколько слово знакомо (распространено, логично предсказуемо)… надо в общем поизучать вопрос :)
                                0
                                Меня больше «нтсонжавеь» смутило, нежели «птсоньлетаводелсои».
                            +1
                            Писал в прошлом году в универе курсач по НС «распознавание рукописных цифр», заставили делать в LabView сначала плевался, а потом наткнулся на модуль машинного зрения IMAQ Vision и счастью не было предела, масса функций для обработки изображений и видео. В качестве сканера использовалась обычная вёб-камера. Литературы перерыл массу, везде было много математики… меня спасла вот эта книжка neuroschool.narod.ru/books/nntech.html

                            «Для построения системы распознания рукописного текста можно использовать нейронную сеть, с шестислойной структурой, повторяющей основные принципы строения неокортекса.»

                            Имеется ввиду шестислойный персептрон? Тогда 3х слоёв вполне достаточно =)
                              +1
                              врят ли персептрон…
                              это не на неокогнитрон похоже? там вроде бы пирамидальное уточнение информации идёт
                              +1
                              При моделировании ИНС возникает главная проблема «тирания связей» и проблемы вычислительного характера, связанные со сложностью модели биологического нейрона. Что касается статьи она довольно наглядно демонстрирует непонимание автором сути излагаемого материала.

                              «Для построения системы распознания рукописного текста можно использовать нейронную сеть, с шестислойной структурой, повторяющей основные принципы строения неокортекса.»

                              какие принципы строения неокортекса? почему 6 слоев? какова архитектура сети? количество нейронов для распознавания? фраза не содержит полезной информации

                              «Основной принцип работы – использование модели «память-предсказание». То есть, система не должна будет высчитывать ответ, соответствие между рукописным текстом и ASCII-кодом, а «доставать его из памяти». В связи с чем, система должна довольно длительное время проходить обучение (запоминание).»

                              я всех удивлю, но таким образом работают все нейронные сети. «Память» откуда надо что-то «доставать» — это настраиваемые веса связей нейронов в сети.

                              «Первоначальное обучение должно проходить «в ручном режиме», с постоянным контролем результата, впоследствии можно перейти к автоматическому непрерывному обучению. Для этой цели может существовать специальная вспомогательная обучающая программа, которая будет предоставлять системе визуальные образы и соответствующие ASCII-коды.»

                              ну как бы обучение совершенно необходимый элемент для многих классов ИНС, исключая особые виды самоорганизующихся сетей, так что Америку тут никто не открыл

                              «При удачной разработке данного комплекса, он сможет распознавать, после соответствующего обучения, не только рукописный текст, но и прочую информацию, визуальную и звуковую, т.е. любую информацию, которую первоначально можно представить в виде волн.»

                              сети глубоко наплевать что ей распознавать, какую информацию. Сеть просто ставит в соотвествие входному вектору X определенный выходной вектор Y. Внутренее содержание информации ее не интересует.

                              Афтар, учите матчасть, пожалуйста. Хотя бы книжку Станислава Осовского.
                              DIXI
                                0
                                про Будду и Конфуция я тактично промолчу…
                                  0
                                  а зря, развили б тему :)))
                                –2
                                Подозрение на фееричную лженаучность. Чего только стоит абзац про вселенную. Какое отношение эта шизотерика имеет к сабжу?
                                  –1
                                  ну у нас тут вроде не Сайнтифик Американ?
                                    +1
                                    У нас лучше, чем Сайнтифик Американ. Спекуляции тут точно никому не нужны.
                                      –1
                                      тогда не стоит употреблять термин «лженаучность». он лженаучен!
                                  0
                                  шестислойная нейронная сеть — автор статьи не очень хорошо догнал идею автора книги, автор книги имел под слоями нечто другое чем просто слои нейронной сети, это функционально различные нервные клетки, часть из них ответственна за работу с таламусом, часть за передачу информации в прямом направлении часть в обратном. а будет хоть сто слоев обычных математических нейронов — ими только баловаться можно, а не серьезно исследовать
                                    +1
                                    схема лао-дзы-будда-кун-дзы(конфуций) не напоминает ли это звезду давида.
                                      0
                                      угу, чета похожее, хотел под пентаграмму подогнать, не получается… ))
                                        +1
                                        а получилось что весь топик подогнан :) туда еще можно потепление подогнать, инопланетян. чудная темка получится, знаете про обращения КОН, конфедерация инопланетная, которая за землянами наблюдает, так вот в этом обращении, там была не критика чистого разума, а критика человеческого интеллекта, типа сказана причина ограничения… явно какой-то ограниченный чел писал этот фейк, ну ладно меня понесло, лучше просто занимайтесь наукой, изучением этих интересных вещей, как хобби или профессионально, и не подгоняйте одно к одному
                                          0
                                          ещё не дошел до красной площади, а уже… :)))
                                            0
                                            загуглил по КОН, поржал, но насчет логики все верно. двумерная логика must die. см. квантовую механику (тот же кот шредингера), теорию хаоса (фракталы и аттракторы).

                                            если же принять истинной гипотезу о существовании инопланетян, то не стоит думать, что они там все поголовно (или по-что-то-ещё) умнее землян.

                                        0
                                        ну и почему бы не сделать структуру из нескольких (6) нейросетей разной конфигурации с выводами и вводами на разные штуки и расположить их в виде торта наполеон? :)

                                        блин, люди, я концепцию изложил, потому и называется «Мысли вслух». Это материал для обсуждения, а не конечный мануал для разработки.
                                          0
                                          отмазка принята! :)
                                            0
                                            как говорится «ты просто разместил обьяву»
                                              0
                                              дааа, надо было писать про Сиськи:
                                              — сиськи и их влияние на работу,
                                              — эффект сисек в гиперпространстве,
                                              — принцип относительности сисек,
                                              — искусственные сиськи,
                                              и т.п.
                                              :))))
                                          +1
                                          Автор, ваш креатив не предмет для обсуждения, а скорее диверсия против внятного и четкого понимания теории (и практики) нейронных сетей. В нейронных сетях нет ничего мистического, никаких Будд и Конфуциев. Это математика. Человек незнакомый с предметом, прочитав ваше творение получит кашу в голове (такую же как у вас) вместо понимания предмета.
                                          К сожалению, популярность этой статьи показывает некритичность, ненаучность и фрагментарность знаний по предмету посетителей блога «ИИ». А смелость утверждений просто зашкаливает. Может статейку в «Завтра» опубликуете, как образец трудов непризнаного продажной российской наукой великого ученого? Мне, как человеку, собирающемуся писать докторскую по смежной теме, ваше легкомысленное отношение к предмету не нравится. Прежде чем что-то написать, нужно иметь ясное понимание, желательно подкрепленное практическим моделированием работы ИНС в распознавании образов. Я вот не берусь еще ничего писать, хотя понимаю предмет глубже вас. Я считаю себя неготовым к этому.
                                            0
                                            про Тима Лири слышали?
                                            1. рецептор. Лао-цзы олицетворяет пассивный, само оправдывающий, отрешенный воспринимающий аспект учения (Шива).
                                            2. ядро. Будда — интегрирующий, сравнивающий, ищущий доводы в пользу Срединного Пути*. Это тело нервной клетки (Брахма).
                                            3. эффектор. Конфуций олицетворяет передающую стадию нервного импульса — связанную с социальным объединением, внешними контактами, межперсональными связями (Вишну).

                                            напишите и покажите что понимаете глубже. но вы же не пишите. значит не понимаете, раз не считаете себя готовым к этому. :)

                                              0
                                              угу. Будда, Брахма, Конфуций. Давайте нейрон назовем Рамой, аксон Вадждрой, фунцию активациии Праной. И будем дальше играть словами.
                                                0
                                                а нейрон, аскон, функция активации — это не игра словами? :)
                                            0
                                            нет, это принятые в данной предметной области термины.
                                              0
                                              ну ничего не мешает принять другие, а лучше — расширить понятийную область. см. тут пункт №19.
                                              –1
                                              кошмар и шиза.
                                              Основатели когнитивной психологии вертятся в своих гробах.

                                              Only users with full accounts can post comments. Log in, please.