godfather Dec 15 2008 at 07:08

Мысли вслух: распознание текста.

6 min

6.9K

1. Первый момент по поводу распознания рукописного текста с помощью нейронных сетей.

«Летом 1987 я получил опыт, который еще больше охладил мой и так невысокий энтузиазм относительно нейронных сетей. Я пришел на конференцию по нейронным сетям, где я увидел презентацию, устроенную компанией, называемой Nestor. Nestor пыталась продать приложение на нейронной сети для распознавания рукописных символов на подложке. Она предлагала лицензию на программу за один миллион долларов. Это привлекло мое внимание. Хотя Nestor провела улучшение алгоритма ее нейронной сети и рекламировала ее как еще один большой прорыв, я чувствовал, что проблема распознавания рукописных символов могла бы быть решена более простым, более традиционным путем. Я пришел домой той ночью, размышляя о проблеме, и за два дня разработал распознаватель рукописных символов который был быстрым, маленьким и гибким. Мое решение не использовало нейронную сеть и оно работало совершенно не так, как мозг. Хотя эта конференция разожгла мой интерес в разработке компьютеров со стилусом (в конечном счете приведший к проекту PalmPilot десять лет спустя), это также убедило меня, что нейронные сети были не таким уж большим улучшением по сравнению с традиционными методами. Распознаватель рукописных символов, который я создал, пригодился в конечном счете для системы текстового ввода, названной Graffiti, использованной в первых сериях продукции Palm. Я думаю, компания Nestor ушла из бизнеса». Джеф Хокинс, «Об интеллекте»

В своей книге Джеф предлагает теорию ~~искусственного~~ интеллекта, предполагающую его в виде нейронной сети, повторяющую структурой неокортекс, кору головного мозга. В своей теории он объясняет интеллектуальность моделью «память-предсказание» и инвариантным представлением данных:

2. Второй момент, распознавание текста – это, прежде всего интеллектуальная задача, даже если не ставить задачу, чтобы компьютер понимал текст, а такую, чтобы он просто переводил рукописный текст в цифровой формат, пригодный для дальнейшей обработки (ASCII) – все равно КПД распознавания с помощью «простых» нейронных сетей будет небольшим. Вспомнить хотя бы почерк врачей…

Также когда совершенно непонятна какая-нибудь буква, тем не менее, человек способен понять слово или текст целиком из контекста.

То есть в принципе реально улучшать существующие алгоритмы распознавания, но абсолютно любой почерк (а малейшее отклонение от шаблона в традиционных алгоритмах ведет к ошибке) распознать не удастся, а компьютер так и будет читать текст как дошкольник, по буквам, разделяя пробелами рукописный текст.

В то время как взрослый человек читает слова целиком:

«По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом».

3. Ещё один момент относительно работы мозга:

«В этом случае, неожиданное открытие пришло из базовой анатомии самого кортекса, но потребовался необычайно догадливый разум, чтоб распознать его. Это был Вернон Монткастл, нейрофизиолог из университета Джона Хопкинса в Балтиморе. В 1978 году он опубликовал статью, названную «Организационные принципы Церебральных Функций». В этом документе Монткастл указал, что неокортекс удивительно однороден по виду и структуре. Области неокортекса, которые оперируют слуховой информацией, похожи на области, оперирующие с осязанием, управлением мускулатурой, языковую область Брока, практически как любые области неокортекса. Монткастл предположил, что поскольку эти области выглядят одинаково, они действительно выполняют одну и ту же базовую операцию! Он предположил, что кортекс использует один и тот же вычислительный инструмент для всего, чем он занимается». Джеф Хокинс.

Однако остается вопрос, как волны, световые, звуковые сохраняются в неокортексе в виде паттернов?..

«Грубо говоря, Фурье разработал математический метод перевода паттерна любой сложности на язык простых волн. Он также показал, как эти волновые формы могут быть преобразованы в первоначальный паттерн. Другими словами, подобно тому, как телевизионная камера переводит визуальный образ в электромагнитные частоты [8], а телевизор восстанавливает по ним первоначальный образ, математический аппарат, разработанный Фурье, преобразует паттерны. Уравнения, используемые для перевода образов в волновую форму и обратно, известны как преобразования Фурье. Именно они позволили Габору перевести изображение объекта в интерференционное «пятно» на голографической пленке, а также изобрести способ обратного преобразования интерференционных паттернов в первоначальное изображение». Майкл Талбот, «Голографическая вселенная».

В целом же, мозг по свойствам похож на голограмму, например, вмещает огромное количество информации в относительно маленьком объеме. Как пленка голограммы, освещаемая лазером под разным углом, выдает много различной, прежде записанной информации, так и память человека, при изменении сознания, естественном («настроение», «гормоны» — в т.ч. эндорфин, и т.п.) или с помощью «медиаторов» (алкоголь, табак, прочие наркотики), выдает различную информацию, в том числе различные оценки одних и тех фактов.

«Теория Прибрама-Бома
Если соединить теории Бома и Прибрама, мы получим радикально новый взгляд на мир: наш мозг математически конструирует объективную реальность путем обработки частот, пришедших из другого измерения – более глубокого порядка существования, находящегося за пределами пространства и времени. Мозг – это голограмма, свернутая в голографической вселенной». Майкл Талбот, «Голографическая вселенная».

4. Для распознания рукописного текста, просто текста или какой-нибудь иной информации вроде визуальных образов и звука с помощью нейронных сетей, компьютеру необходим внушительный объем памяти. Нейронная сеть, повторяющая структуру неокортекса обладает серьезным потенциалом в этом смысле.

Вывод:

Для построения системы распознания рукописного текста можно использовать нейронную сеть, с шестислойной структурой, повторяющей основные принципы строения неокортекса.

Основной принцип работы – использование модели «память-предсказание». То есть, система не должна будет высчитывать ответ, соответствие между рукописным текстом и ASCII-кодом, а «доставать его из памяти». В связи с чем, система должна довольно длительное время проходить обучение (запоминание).

Первоначальное обучение должно проходить «в ручном режиме», с постоянным контролем результата, впоследствии можно перейти к автоматическому непрерывному обучению. Для этой цели может существовать специальная вспомогательная обучающая программа, которая будет предоставлять системе визуальные образы и соответствующие ASCII-коды.

При удачной разработке данного комплекса, он сможет распознавать, после соответствующего обучения, не только рукописный текст, но и прочую информацию, визуальную и звуковую, т.е. любую информацию, которую первоначально можно представить в виде волн.

06.2007

PS*. «Дзен». :)

Визуальная информация идет от глаз через таламус головного мозга – «глаз на вершине», откуда поднимается, «расширяясь», по коре головного мозга до основания воображаемой пирамиды. Только по мере расширения «пирамиды» информация конкретизируется, а в вершине у одного «кванта» информации «много путей» для дальнейшего хода. То есть пирамида представляет собой не столько структуру представления данных, а путь единицы информации в неокортексе.

С другой стороны, если пирамиду не переворачивать, то получится следующее: информация поступает в кору головного мозга, поступает в «основание пирамиды», откуда следуя определенному «алгоритму», конкретизируется к вершине пирамиды и, попадая «в глаз на вершине пирамиды», представляет собой собственно то, что мы «думаем, что видим». В соответствии с этой точкой зрения, верен принцип интеллектуального выбора видимой информации, то есть видимая интеллекту информация зависит от интеллекта и тех «алгоритмов», которым он следует, что подтверждает гипотезу «о принципе относительности информации».

Синтез этих двух точек зрения может дать общее представление о распознании интеллектом визуальной информации.

Поступающая в «интеллектуальную систему» визуальная информация подвергается одновременной обработке двумя (или более) противоположными процессами. Первый процесс предоставляет множество путей, возможных вариантов истолкования информации. Второй процесс, следуя определенному правилу, алгоритму, конкретизирует поступающую информацию. Тогда, то, что мы видим — результат взаимодействия двух противоположных процессов.

PPS. Ну и кто тот Мастер, что делает траву зеленой? :)

Hubs:

Artificial Intelligence