Распознавание текста в ABBYY FineReader (2/2) / Комментарии / Хабр

WebAir 3 июл 2014 в 14:14

Часто пользуюсь распознаванием FineReader.
Интересны аспекты распознавания китайских иероглифов.
Как распознается язык на котором написан текст, когда выбрано автоматическое определение. Ведь бывают слова на русском языке, где нельзя понять это кириллические символы или латинские. «НЕТ», «ХОР», «РОМАН», «КОТ», «ТОК» и т.д.

TonyMas 3 июл 2014 в 20:00

Про CJK (китайский-японский-корейский) вообще отдельная тема разговора, в особенности в том, что касается распознавания отдельных символов. Если коротко, то классификаторы для символов там свои с более сложным набором признаком. И есть еще дополнительный уровень предварительного отсева, когда для изображения отсекаются целые наборы иероглифов, на которые картинка точно не похожа. Но вообще про иероглифическое распознавание нужно еще одну статью писать (и про арабский кстати тоже).

Про автоматическое определение языка — оно сделано на трех уровнях.
Первый уровень — это просто по внешнему виду по определенному набору признаков (без распознавания) определяем общий стиль письма, здесь важно понять есть в тексте иероглифы или нет, китайским языком его распознавать или европейскими – от этого зависит какие классификаторы мы будем использовать.
Второй уровень — когда в продукте поставлен автоселект из большого количества языков. Тогда система распознавания в очень быстром режиме распознает текст сборным языком с алфавитом из всех разрешенных символов. Дальше проверяется несколько критериев — насколько часто мы выбрали символы специфичные для какого-то языка, насколько часто на попадались слова которые есть в словаре языка и т.д. По этим критериям формируется сокращенный список языков, которые скорее всего есть на странице.
Третий уровень – это нормальное распознавание с выбранным набором языков. Здесь мы делаем выбор на этапе построения слова из вариантов распознавания (в первой части статьи про это было рассказано — Распознавание текста в ABBYY FineReader (1/2)). Здесь мы уже оперируем языковыми моделям, мы проверяем под какую модель попадают варианты слова, какие есть варианты языков для предыдущих и для следующих слов и на основе этого уже делаем выбор.

byria 3 июл 2014 в 15:12

А как обстоят дела с распознаванием текста через вебкамеры, к примеру если это «глаза» робота?
Есть ли в планах компании?
Какие требования к камере?
Ведь еще немного и такое может понадобиться.

TonyMas 3 июл 2014 в 20:07

На этот вопрос два ответа, на самом деле.
Во-первых, FineReader умеет распознавать текст с фотографий, в том числе и плохого качества – когда обработку фотографий начинали разрабатывать (лет 8 назад) большинство цифровых фотоаппаратов как раз были такого качества как сейчас вебкамеры.
Во-вторых, по-хорошему, текст с камеры нужно распознавать не с фото, а с видеопотока, так есть много шансов итеративно исправлять ошибки распознавания. Сейчас у нас такой готовой для пользователей технологии нет, что будет дальше посмотрим, следите за будущими анонсами.