Обновить

Что будет, если пригласить на свидание OCR и GPT?

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели1.5K
Всего голосов 3: ↑2 и ↓1+1
Комментарии2

Комментарии 2

Я бы скорее думал в сторону учета контекста соседних символов. И это идеологически очень похоже на работу GPT, как угадывание на основе серии данных на входе. Но входным токеном будет не слово, а визуальный глиф.
Для обучения такой сети можно использовать дистилляцию с умных моделей - примерно также, как вы и OCR обучаете.

  1. В принципе, учитывая тяжесть ИИ систем и ситуацию с hardware на ближайшую перспективу, описанный путь кажется не самым оптимальным. Я могу с одним файлом получить результаты распознавания FR, различающиеся по количеству неуверенно распознанных символов (и ошибок) в разы, простой игрой с разрешением исходных изображений в FR.... Учитывая то, что FR пока остаётся для русского лучшей OCR, крупным пользователям их решений лучше долбить ContentAI, чтобы исправляли серьёзные косяки - пополнение словарей, внедрение поддержки макросов пакетной замены/исправлений с предварительным составлением списка несловарных слов по результатам OCR, задание нераспознаваемых зон, поддержка блокировки блоков, исправленных вручную, ускорение работы, группирование текстовых зон вокруг вклеек, соединение слов, разорванных на концах страниц и т.п.

    Одни эти меры позволят решить 70-80 процентов проблем, для которых сейчас адаптируется ИИ.

  2. Вместо объятия необъятного (исходники разной степени кривизны) лучше заставить пользователей выдавать исходные материалы в едином формате с использованием шрифтов, которые FR распознаёт лучше, а в идеале должен распознавать абсолютно точно, чего сейчас нет. Вот тут крупные корпоративные заказчики должны поиметь ContextAI так, чтобы у них чубы потом ещё год трещали....
    Нигде, кроме как в ИТ, никто не пытается печь хлеб из муки и из песка - везде есть строгие требования к качеству сырья.

  3. Были попытки использовать ИИ (GPT) для исправления ошибок в русском и английском тексте с высокой долей неуверенно распознанных символов без особых настроек — исправляет, но почти всегда, то там, то там, заменяет предложения или их части синонимичными фрагментами из-за чего аутентичность текста не гарантируется, или требуется ручная проверка.
    На технических книгах с кучей специфической лексики и расчётных вклеек ситуация гораздо хуже....Но этими вопросами (распознавание формул/группировка текстовых блоков вокруг вклеек) ИМХО особо никто не занимается и не заморачивается.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации