vasiljevserg Jan 13 2012 at 11:37

Распознавание непрерывного рукописного текста в режиме off-line

4 min

49K

Artificial Intelligence

From sandbox

+43

Comments 61

sdevalex Jan 13 2012 at 11:55

А ваша программа сможет разбирать почерк докторов? Возможно нелепый вопрос, но больно интересно.

vasiljevserg Jan 13 2012 at 11:59

Она сможет распознать почерк докторов когда будет подключена система искусственного интеллекта, которая понимает смысл текста. Без понимания смысла текста такой почерк разобрать нельзя.

om2804 Jan 13 2012 at 13:21

а Вы думаете доктора сами понимают смысл своего текста? )

xiWera Jan 13 2012 at 13:22

О какие громкие слова :) не нужен ей смысл. Максимум что нужно, статистические данные по написаным словам и какаянить модель маркова для докторских каляк.

edeldm Jan 13 2012 at 21:28

и словарь возможных слов побольше.

oddy Jan 14 2012 at 03:43

Модели маркова используются в ИИ, так что ваш собеседник прав.

xiWera Jan 14 2012 at 18:26

В ИИ много чего используется, но к смыслу это отношения не имеет.

space_monkey Jan 13 2012 at 12:39

Почерк докторов сейчас, особенно в больничныйх листах, очень хорошо распознается первокласником.
Если HR взял в руки больничный лист и сказал что принимает, то ошибки в нем никем не принимаются, ни доктором, ни больничкой, все, взял так взял.
Все направлено к тому, чтобы государство тратило как можно меньше денег из бюджета на здравоохранение и как можно больше на...(нужное дописать)

vvzvlad Jan 13 2012 at 15:01

вы открыли мне глаза

moooV Jan 13 2012 at 14:21

Sterhel Jan 13 2012 at 16:33

Написано ведь, что программа распознает рукописный текст)

Рукописный — это когда руками пишут. Так что, ответ на вопрос — нет.

ЗЫ Не в обиду докторам ))

LazyWolf Jan 13 2012 at 11:56

Очень интересно, каковы планы по дальнейшему развитию вашего проекта? Планируется ли коммерческое развитие, или отдадите в opensource? А так статья очень заинтересовала, было бы интересно поподробнее узнать про алгоритм распознавания — что же происходит после векторизации?

vasiljevserg Jan 13 2012 at 12:22

Планов много, потому что распознавание текста только вершина айсберга. Эту систему мы используем как стартовую площадку для ветки продуктов, связанных с искусственным интеллектом. Ею мы хотим доказать, что наши заявления по поводу ИИ не шутка. И opensourse проектом это не будет. Во всяком случае у нас пока нет идей о монетизации этого проекта в таком формате.

Про алгоритмы и технические подробности будут статьи. В комментариях их расписывать бессмысленно.

kutanov Jan 13 2012 at 12:04

Окееей… А чем лучше CEDAR-FOX?

Tred Jan 13 2012 at 12:12

Слово лишили в рукописном варианте выглядит душераздирающе ))

p.s. писал ногой, снимал стеркой ))
Вопрос такой — такие слова (типа «лишили») тоже через систему ИИ, или можно проще?

wrewolf Jan 13 2012 at 12:43

А эту картинку можно прогнать через прогу и выложить видео результата?

vasiljevserg Jan 13 2012 at 16:43

см. апдейт в статье. Скоро будет доступная для скачивания демоверсия.

Haoose Jan 13 2012 at 17:26

Прочитам этот коммент (см. апдейт в статье.) надеялся увидеть видео по распознованию данного предложения в статье, но снова обломался.

wrewolf Jan 16 2012 at 06:48

суди по возможностям демо будет клиентом, а весь код выполнятся на серверах источника
иначе сломают и передадут в народ

vasiljevserg Jan 13 2012 at 16:42

Цитата из статьи: «В готовом варианте этот показатель можно сформулировать так: если человек сможет прочитать текст, то и программа тоже.»

Мы же с вами смогли прочитать эту фразу?

Tred Jan 13 2012 at 17:17

Мы с вами — смогли, но я уверен, что существует человек, который не сможет. Это очень популярное заблуждение, что если один человек может, значит — может любой. Это неверно.

Я не пытаюсь принизить результаты вашего труда. Скорее, отношение радостно-недоверчивое — «Нифига, и так оно тоже может!?» Но присутствует здоровый скепсис, отчасти от того, что я не понимаю, как оно работает. С удовольствием посмотрю на демку, когда будет доступна.

vasiljevserg Jan 13 2012 at 17:09

Это распознаётся без ИИ.

dobriykot Jan 17 2012 at 12:56

Daedmen Jan 13 2012 at 12:14

Вот почему я был уверен, что первый же коммент будет о врачах…

Haoose Jan 13 2012 at 12:21

А ссылку на демоверсию программы добавите?

vasiljevserg Jan 13 2012 at 12:45

Демоверсия сейчас доступна только в личном порядке для потенциальных инвесторов и покупателей.

Haoose Jan 13 2012 at 12:47

Хм… Боитесь что алгоритм выдернут? Я думаю нашлось бы больше инвесторов, покупателей, после того, как они сам лично попробуют программу, и увидят в ней потенциал. Это ж демо-версия. Точнее сказать, техническая демка. Я думаю многим интересно пощупать её руками, так сказать.

vasiljevserg Jan 13 2012 at 12:56

В этом есть смысл. Мы попробуем.

guyfawkes Jan 13 2012 at 12:58

Думается, что тот, кто способен будет выдернуть (если программа не на .NET и не поддается досаточно легкой «обратной разработке») алгоритм в дизассемблере и понять его (а алгоритм, судя по заверениям автора, ни много ни мало революция), заслуживает обращения к себе как к гению :)

Trept Jan 13 2012 at 12:33

В начале было громко объявлено о решении «теоретическом и практическом» задачи распознавания слитного рукописного текста. После этого от статьи ждешь сенсации. А в результате…
Теоретические рассуждения просто никакие. Дальше идут обещания, критика Аби Компрено, и мысли по поводу ИИ.
Все могла бы спасти удачная демонстрация. Но где же она?
Нельзя же считать таковым невнятный ролик с одним примером.

vasiljevserg Jan 13 2012 at 12:44

Мы заявили о принципиальном решении задачи и не ставили целью сделать это сенсацией. Программа ещё не готова и более развёрнутых её описаний можно ожидать только после окончания разработки.

dmitriev_dmitry Jan 13 2012 at 13:08

Сергей, почему вы о себе во множественном числе пишите? Или вы представляете какую-то организацию?

vasiljevserg Jan 13 2012 at 13:14

Небольшую группу людей, команду.

dmitriev_dmitry Jan 13 2012 at 13:19

Вы такой таинственный!

Trept Jan 13 2012 at 13:25

Что ж, перечитайте свой второй абзац в предисловии. Заявление четкое и безапелляционное.
Увы, ничем далее не подкрепленное, кроме ролика.
Получилась больше реклама, а не статья в ИИ.
Правда, нормальные элементы в статье есть.
Например, цифра в 70% точности очень мала, но уже хорошо, что Вы не побоялись ее назвать.
Еще было бы неплохо показать, где Ваша программа пока ошибается (примеры оставшихся 30%). Это нисколько не снизило бы впечатление от статьи, а наоборот, прибавило очков у серьезных читателей.

si14 Jan 13 2012 at 12:47

>Писать привычным непрерывным почерком удобнее и легче
Вы не поверите, но
>On the 2006 SAT, a United States post-secondary education entrance exam, only 15 percent of the students wrote their essay answers in cursive. (thx to wikipedia)
Русские слишком маленький и неплатёжеспособный рынок.

Tred Jan 13 2012 at 13:04

Кроме русских, есть огромное направление по распознаванию арабского письма.

tzlom Jan 13 2012 at 13:53

Я бы даже дополнил что и по русски писать по буквам — легче, чем непрерывным, особенно если владеешь среднестатистическим-корявым, а писать приходится много и быстро.

ru1z Jan 13 2012 at 14:26

Простите, неужели кроме Abby и вас не занимается ничем похожим? Есть ведь еще другие компании специализирующиеся на распознавании текста. Не знаю насчет рукописного, но все-таки. Вроде бы даже evernote умеет немного распознавать рукописный текст (для поиска).
Или все дело именно в качестве распознавания?

aram_pakhchanian Jan 13 2012 at 14:55

Evernote, да, умеет, и это наследие прошлых проектов Степана Пачикова, основателя Evernote.

mydoom Jan 13 2012 at 14:47

Пост подобен, пардон, пуку в воду.
А «демонстрационная программа» чем-то до боли напоминает склёпанную школьником в делфи форму, из разрисованных скринов которой и сделали видео.

aram_pakhchanian Jan 13 2012 at 14:54

Ну раз уж меня даже в статье упомянули, позвольте прокомментировать. Сначала небольшое уточнение: наша компания называется просто ABBYY :).

А теперь по делу. Систем распознавания рукописного слитного текста в мире разработано довольно много. Есть несколько коммерческих систем (например, у французской компании A2iA, у американской компании ParaScript, наследницы российской компании Параграф, детища Степана Пачикова). Есть множество разработок, которые используются в нишевых решениях: я видел одну разработку, в достаточно продвинутой стадии, сделанную израильской компанией, похожая разработка сделана в Siemens, есть несколько японских решений, и т.д. Даже вполне себе успешная французская A2iA, которая смогла лицензировать свою технологию всем, кому только можно, зарабатывает от силы несколько миллионов долларов в год, и их доходы особо не растут. И, похоже, это и есть масштаб потенциального рынка.

Есть два больших сегмента, где такие системы находят применение: это обработка банковских чеков и почтовые сортировочные машины. По мере того, как чеки окончательно будут выведены из употребления банковской системой в США, этот сегмент тоже исчезнет. Почта в развитых странах все больше имеет дело с печатным текстом, все меньше и меньше людей вообще отсылают обычные письма, и все больше людей при этом печатают адрес, благо, на современных принтерах эта задача тривиальная. В странах не развитых для сортировки используются люди, это сильно дешевле. Возникает вопрос: а почему не использовать слитный текст в формах? Ответ, в общем-то, присутствует в исходном тексте: в этом сценарии никого не устроит 30% ошибок. И даже 10% никого не устроит. И даже 5%. В реальных сценариях речь идет максимум об одной ошибке на 200-300 знаков ДО применения различных дополнительных контекстных знаний (справочников, правил проверки и т.д.). После применения этих знаний речь может идти об одной подсвеченной ошибке на 500-600 знаков, и максимум одной неподсвеченной ошибке на 5000-6000 знаков. При значительно худших параметрах ваше решение не будет интересовать 99% потенциальных покупателей. Потому что люди вводят формы, когда им действительно нужны данные из них, а не то, что ваша программа об этих данных думает.

Я уже не говорю о том, что на реальных документах качество полученной после сканирования картинки катастрофически ниже идеала, который изображен в статье: массово присутствуют разрывы, двойные и тройные линии, исправления, много «мусора», налезаний текста на элементы оформления и т.д. Когда рисуешь отдельные квадратики, люди хотя бы стараются в них попадать и пишут относительно аккуратно. Когда квадратиков нет, то люди пишут так, что потом сами не могут разобрать, что написали. Именно поэтому многие формы, даже если они не предполагают автоматической обработки, все равно делаются со знакоместами для букв.

Это если очень коротко по теме. Вообще она обширная и очень интересная, но я и так уже злоупотребил форматом комментария.

vasiljevserg Jan 14 2012 at 12:56

Извините, Арам, что не сразу ответил.

Спасибо за злоупотребление форматом комментария, он очень интересен и полезен для нас. У Вас большой опыт в коммерческой области, у нас его нет совсем. Я согласен со всем, что Вы сказали. И даже с тем, что в формах есть большой смысл.

Но в том, чтобы найти не частное, а общее решение этой задачи, тоже есть смысл. Распознавание рукописного текста – это одно из применений общего решения. Кстати, самое простое. Кроме этого есть ещё много чего распознавать. Например, дальнейшее развитие распознавания рукописного текста – определение автора по почерку. Далее идёт машинное зрение вообще, то есть распознавание объектов, классификация состояний этих объектов. Наконец, распознавание звуковой речи. (Как ни странно, общее решение применимо и здесь). Да, есть уже много разработок по всем направлениям. Но пока практически все они являются специализированными, не общими. Само распознавание образов, в свою очередь, только одна из функций ИИ. Более общее её название – применение знаний. Кроме распознавания (классификации) знания ещё применяются в генерации алгоритмов решения задач. Например, перемещения (транспорт), преобразования (производство). Вторая функция ИИ (а их только две:) – генерация знаний. А по сути – обучаемость, способность обобщать информацию, выделять алгоритмы процессов в результате их обобщения, поиска сходств.

Я уже упоминал разработанную мной систему ИИ, понимающую смысл текста. В этой системе решены все перечисленные задачи. Причём, в общем виде. Например, такая функция, как способность общаться на естественном языке, решена в теории полностью, программно – на 60% или более. В процессе обучения программа строит синтаксические диаграммы (генерация знаний), которые она может применять в построении фраз для ответов на вопросы, описания своего состояния, задавания вопросов (применение знаний).

Но к этой системе нам так и не удалось привлечь внимание общественности. Во многом для этого и пришлось решить обсуждаемую здесь задачку.

pfalcon Jan 14 2012 at 14:49

Все это очень интересно и даже понятно всем, кто (в юности) интересовался ИИ. Объясните только, почему именно вы и почему сейчас? Почему не советские НИИ и вражеские корпорации 20 лет назад? Даже почему вы не 5 лет назад или через 5 лет (этот ± — ничто при тех сроках в десятки лет, что вы очевидно занимаетесь проблемой)?

А может быть, все дело в том, что 5 лет назад вы еще гоняли голубей, а через 5 лет будет пахать на чем придется из относительно интересного, чтобы купить машынко, платить ипотеку и кормить детей? А вот сейчас у вас такой период жизни, что вы один, совсем один, почти написали распознавание слитного почерка, представляете небольшую группу людей, и решаете общую задачу ИИ?

vasiljevserg Jan 14 2012 at 16:59

Почему не «вражеские корпорации 20 лет назад» не знаю.

5 лет назад уже 5 лет шла разработка системы.

aram_pakhchanian Jan 14 2012 at 15:54

Спасибо за ответ.

А какие у Вас конкретные планы?

VTH Jan 13 2012 at 15:25

Простите, но у меня по мотивам ролика почему-то в уме внезапно родился такой псевдокод:

VTH Jan 13 2012 at 15:28

Упс.

ProcessImage(Image, «BW+contrast»);
Vector = CreateVector(Image);
CreateNodes(Vector, 1, NODE_BASIC_ONLY);
Input1->Caption = «газета»; //Вставить процедуру распознавания позже
Input1->Blink();

amarao Jan 13 2012 at 18:22

сырцы? Или сразу в недра злобной проприентарщины?

vasiljevserg Jan 13 2012 at 18:40

Сырцов не будет. Во всяком случае пока. Как я уже писал, сейчас у нас нет приемлимых идей как монетизировать продукт в режиме open-sourse.

edeldm Jan 13 2012 at 21:34

Он-лайн сервис по распознаванию.
Намалявал, сфоткал, отправил вам на сервер, вернуло текст, вставил в смс\ммс. Профит!
Вариант 2. Фоткаем страницы книжек, газет, и т.д.

Только с гигантами которые на этом собаку съели — не справитесь малой командой.

Потому доверия к успешности по распознаванию на 100% — мало.

А вот юношеского максимализма — много.

naum Jan 14 2012 at 09:37

^{Вы не представляете как мне приходится сдерживаться, чтоб избежать очередного бана :( Хорошо, попробую сформулировать без мата — пожалуйста, будьте столь любезны, посмотрите где-нибудь в словарике написание слова source и словосочетания в целом.}

Grox Jan 14 2012 at 11:30

vasiljevserg, не обращай внимания на скептиков, их всегда большинство.
А вот монетизацию и вклад в это дело своего времени нужно рассмотреть.

retif Jan 14 2012 at 11:55

я бы на месте автора не рвался к написанию подробных статей и выкладыванию «демо» программы, потому что оба этих действия ведут к реверс-инженеру который стырит наработки.

есть перспектива встать в один ряд с русским изобретателем тетриса, который остался в лопухах с нулём в кормане.

ищи лучше покупателей или лицензиатов(в случае наличия патентов)

Ashmanov Jan 16 2012 at 04:37

есть перспектива встать в один ряд с русским изобретателем тетриса, который остался в лопухах с нулём в кормане.

Это вы откуда взяли? Не надо фантазировать.

kometa_triatlon Jan 14 2012 at 23:26

«Как известно,» — очень плохое начало для статьи, претендующей на научность. Такие заявления принято подтверждать ссылкой.

«Для этого нужна система искусственного интеллекта, способная понимать смысл фраз естественного языка» — вообще трэш. Что это за терминология? ИИ — обширнейшая сфера, что значит «система искуственного интеллекта»? Если имеете ввиду лексикон, статистические языковые модели, семантические модели, то так и говорите, а «систему искусственного интеллекта» оставьте для читателей журнала Men's Health.

Постоянно то «мы», то «моя система». Вы уж определитесь.

«Коротко о теории» — действительно, очень уж коротко. Упоминание о двух подходах посредством пары предложений.

Видео — вообще ни о чем. Результат в 70% — на чем? Хотите меряться пипской с другими — используйте хорошо известные и зарекомендовавшие себя базы образцов, на которых принято проводить тесты.

sergeypid Jan 16 2012 at 06:37

А я бы хотел пользовательский интерфейс с рукописным вводом — для мобильных устройств это может быть удобнее, чем клавиатура. Так что желаю вам успеха и жду новых статей.

UFO landed and left these words here

Cybersoph Apr 22 2012 at 15:54

У меня тоже есть прототип системы ИИ, способной понимать смысл текста.

Это очень сильное заявление. Нет ли тут какой-либо ошибки? Вы могли бы сказать, что именно, конкретно, Вы понимаете под выражением «смысл текста»? Если Вы действительно решили эту проблему, то примите мои поздравления!

kamiram Aug 13 2012 at 00:52

чисто технически, ньютон запмечательно распозновал.

vasiljevserg Aug 18 2012 at 11:11

Ньютон распознавал в режиме on-line.