All streams
Search
Write a publication
Pull to refresh
23
0
Александр Грицай @AllGrit

User

Send message
Очень интересный подход. Я всегда думал, что это только антиспам. Там и статьи имеются научные, надо ознакомиться, спасибо.
Вы считаете растр покажет результаты лучше, чем описанный алгоритм? А почему выбранные признаки, которые выбирались не случайно, а путем оптимизации внутренней/внешней энтропии, «не очень хорошие» по вашему мнению? Спасибо.
Вообще говоря адекватно предположить такие трудности, но вопрос в том насколько они часто будут возникать в реальных условиях, чтобы алгоритм затачивать под них. Конечно, если речь не идет о каком-нибудь гиганте этой индустрии, когда многие другие проблемы решены и хотелось бы, чтобы и такой текст распознавался. Пока наше предположение в том, что такой текст достаточно редок, что им можно пренебречь.
Планов по разработке очень много, хотелось бы сделать более гибкой и настраиваемой, даже адаптивной процесс сегментации, возможно с использованием настройки параметров алгоритма методом ген. оптимизации.
Ну это не совсем верно в результат закладывать качество исходных материалов. Тогда система получается должна хорошо работать только на идеальном варианте, а на искаженном зашумленном, низкого разрешения она может работать плохо, потому что при таком соотнесении результатов все равно они имеют маленький вес в общей картинке.
Что касается первого замечания, оно очень интересное. Мы над такой возможностью не думали. Потому что то, что мы видели из наработок таких систем, обычно идут даже дальше и доползают до букв! Сегментация слов не представляет никакой трудности, слова легко отделяются друг от друга. Система на этом шаге не ошибается с высокой степенью возможности. Поправьте меня, если я не вижу проблемы.

Масштабируемость системы до уровня колонок и таблиц вопрос соотнесения уровней/ глубины узла в дереве и объекта на странице. Вот распознавание таблиц — это отдельная песня. Про которую не скажешь, что это легко масштабируется. А резать колонки в дерево сложности не представляет. Опять же буду рад любым замечаниям на близорукость и непредвидение подводных камней.
Это вы про какую систему? Я не совсем понял. Что не так с сегментатором?..
Система как коробочный продукт пока не существует. И тестировать пока нечего, потому что все что сейчас имеется это набор программ, которые способны удовлетворить только исследовательские цели. Но никак не тестирование в открытом доступе. Поэтому говорить о сроках, когда будет доступно тестирование коробки очень рано.
Может быть подвидение итогов в виде таблиц бросается в глаза, но потом следует словесное объяснение, что это не заслуга чудо-алгоритма, а вполне адекватная реакция на такую выборку. Что касается возможности распознавания неизвестных шрифтов, то данный подход позволяет говорить о неплохих возможностях в данном направлении. Нейронные сети при верно выбранной модели обладают хорошими свойствами к обобщению. А большое число экспертов-нейронных сетей с различными системами выбора позволяют еще больше расширить ее генерализационные способности.
Большое спасибо за поддержку!
Это не заявление о новой чудо системе, это предложение некоторых методов распознавания текста в комплексе. Я не говорю о том, что эта система лучше Cuneiform во всем, хотя бы потому что она еще не создана, лишь замечено что существуют такие случаи, когда система справляется с задачей лучше Cuneiform, а в остальных случаях может сравниться с ним по качеству. Речь идет не о коробочном продукте, а об алгоритмах, которые могут быть использованы в такой системе. Наивный растр быстро упирается в свой потолок на шрифтах, а данный подход позволяет очень хорошо масштабировать систему на большое число различных шрифтов с возможностью их распознавания. Ничто не мешает дообучить систему работать с другими наборами шрифтами. Использование многоуровневых классификаторов позволяет говорить о возможности масштабирования системы.
Abby тут даже читать нечего, потому что их система заставляет смотреть на нее с широко открытым ртом и удивляться как она так хорошо справляется с задачами различной сложности. Чего не скажешь об аналогах в открытых кодах, где есть над чем поработать.
Вообще говоря единственно верного решения в данной области быть не может. Если предположить, что такое решение есть, то всякие исследования и разработки становятся ненужными. Однако количество исследований в данной области зарубежными и нашими разработчиками поражает своими объемами. Если распознавать палочки и пересечения, то очень сложно и практически не возможно будет опознать шрифт, которым все это написано. Что касается авторских шрифтов, это действительно проблема, может быть решена динамическим, возможно интерактивным, обучением системы. На самом деле если дать какой-нибудь средненькой OCR шрифт своего дизайна, она вряд ли с ним справится, если шрифт является не похожим на те, что она знает. Да и стоит ли такие экзотичные шрифты знать OCR, тексты бумажные в основном содержат до десятка шрифтов. Ну по несколько разновидностей их написания. Не так уж много вариантов.
Система как коробочный продукт не создана, находится в состоянии исследовательских приложений и алгоритмов, не пригодна для тестирования пользователем. Поэтому статья называется методы, а не реализация системы.
Я могу прояснить. Он не работает на низких разрешения, например таких как 72, 96, 100 dpi. В остальных случаях справляется вполне адекватно.
общая концепция алгоритма разработана мной совместно с моим коллегой в рамках государственного заказа «разработка системы OCR в открытых кодах». Принципиальные отличия — использование теории нечеткости вместо теории вероятностей, что позволяет улучшить качество распознавания. Теория вероятности, которая служит зачастую основой для таких систем с нейронными сетями не может быть применена хотя бы из за банального несоответствия требованию ТВ о сумме вероятностей=1. Сегментация на последнем этапе, отсутствие конечной сегментации по символам, вместо нее — границы разбиения с уровнем возможности. Распознавание типа написания, размера шрифта с использованием метода вычисления прироста энтропии, простого вычисления энтропии. Автоматизированный поиск наиболее эффективных признаков, не из эвристических соображений, а методом ген. оптимизации и кластеризации, что позволяет существенно улучшить результаты распознавания и сделать систему инвариантной к шуму, сдвигам и прочим нежелательным последствиям. Спасибо.
Что касается инвариантности, совершенно верно подмечено, только в том случае, если вы потом это не стремитесь использовать в своих целях. В данном алгоритме сегментация производится таким образом, что буква обрезается со всех сторон, потом масштабируется до входного размера окна. Далее для борьбы со сдвигами применяется считывание информации признаками, именно то что вы говорите только в терминах яркости пикселей, например усредненной яркости по некоторым областям. Области эти определяются не случайно, а методом генетической оптимизации с использованием кластеризации. Таким образом мы получаем наиболее эффективные признаки, те, что позволяют отделить одни буквы друг от друга, но инвариантны к сдвигам. Что касается размера шрифта, то тут такое различие нам на руку. Так как такие нейросети обученные на различные размеры шрифта объединяются в сложные классификаторы, которые с помощью вычисления энтропии на высоких уровнях позволяют узнать какой шрифт, какого размера, какого стиля написания перед нами. Это возможно ввиду особенностей масштабирования шрифтов различных размеров.
2

Information

Rating
Does not participate
Location
Тверь, Тверская обл., Россия
Registered
Activity