Комментарии 16
Мне это знакомо. Я в свое время пытался решить своими силами одну задачу — чтение отсканированных книг в формате djvu на маленьких экранах смартфонов. Идея была связана как раз с сегментированием текста «на лету». Казалось бы, все просто — прямо в реальном времени берем страницу (как картинку), режем ее на строки (это достаточно просто), режем каждую строку на 2 или 3 части, выводим одну под другой. Да — выглядеть будет криво, но зато читать можно нормально, а не под лупой.
Для простого теста работало. Но потом стали появляться картинки, таблицы, картинки с текстом и прочая экзотика, на которой алгоритм естественно ломался:) Пытался работать и с этим, но вскоре погряз во множестве разных вариантов и забросил.
Действительно грань между простым текстом и всякими картинками-таблицами очень тонкая. Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию: текст — например для поиска по документу, а возможно также и информацию форматирования текста и векторную графику. Тогда можно было бы спокойно запаковывать все «спорные» объекты в такие картинки.
Для простого теста работало. Но потом стали появляться картинки, таблицы, картинки с текстом и прочая экзотика, на которой алгоритм естественно ломался:) Пытался работать и с этим, но вскоре погряз во множестве разных вариантов и забросил.
Действительно грань между простым текстом и всякими картинками-таблицами очень тонкая. Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию: текст — например для поиска по документу, а возможно также и информацию форматирования текста и векторную графику. Тогда можно было бы спокойно запаковывать все «спорные» объекты в такие картинки.
Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию— По моему формат pdf полностью подходит под описание: и картинки, и текст и векторная графика и даже 3D объекты и прочее поддерживает. А в adobe acrobat можно распознанный текст одновременно с картинкой сохранять. Конечно качество распознавания у Abbyy намного выше.
Почему-то pdf представляется мне слишком навороченным и слишком закрытым. Возможно, имеют смысл какие-то более простые решения для частных случаев. Например fb2 — прекрасный формат для текста — более сложный чем txt, но не содержащий ничего лишнего. Возможно нечто подобное имеет смысл сделать для картинок.
И дежавю тоже имеет текстовый слой вместе с картинковым, но как и pdf, он целый документ, а не отдельная иллюстрация в документе.
Возможно в будущем программы будут хранить множественные интерпретации увиденного: есть оригинальное изображение, есть слой с распознанным текстом, есть слой с распознанными иллюстрациями на которых есть слой с распознанным текстом, а по желанию пользователя тексту можно будет менять шрифт, размер, ширину строки и пр. или оставить все как есть (если к примеру, это факсимиле Библии Гутенберга или каллиграфические тексты).
Во многих книгах-учебниках-статьях под всеми рисунками есть подпись «Рисунок N», а под таблицами — «Таблица N». Интересно, учитывают ли ваши алгоритмы такие метки, которые должны были помочь людям лучше воспринимать материал, но теперь могут помочь и машинам?
А нельзя распознавать диаграммы типа предпоследней в свои векторные команды, и для каждого из выходных форматов их отражать по возможности? Типа нет возможности вектором — воткнуть растром, но если есть — таки воткнуть вектором?
Как минимум это непросто. И тоже попрут разные мелочи. Скажем, в некоторых версия Visio двойная стрелка (как над «Trainsitory period») присутствует как отдельный объект. А вот в pdf её надо рисовать командами lineto.
Но вообще-то мне кажется, что такая идея разумная.
Но вообще-то мне кажется, что такая идея разумная.
Научили бы вы FineReader формулы распознавать, а заодно и экспортировать результат в LaTeX, цены бы вам не было
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Распознать нельзя оставить картинкой, или кое-что о сложных случаях оптического распознавания текста