Как стать автором
Поиск
Написать публикацию
Обновить

Релиз открытой системы распознавания текста Tesseract 5.5.0

Время на прочтение2 мин
Количество просмотров4.5K

Состоялся релиз открытой системы распознавания текста Tesseract 5.5.0. Проект поддерживает Unicode и работает с более чем 100 языками. Итоговый результат распознавания может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Решение развивается при участии работников компании Google. Исходный код проекта написан на языке программирования C++ и опубликован на GitHub под лицензией Apache 2.0.

Предыдущая стабильная версия Tesseract 5.4.1 вышла в июне этого года. Релиз Tesseract 5.0.0 состоялся в ноябре 2021 года. Выпуск Tesseract 1.0 состоялся в июне 2006 года.

По информации OpenNET, проект Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные изменения и доработки в Tesseract 5.5.0:

  • добавлена поддержка векторных расширений RISC-V V, на базе которых подготовлены ассемблерные оптимизации для систем с процессорами RISC-V;

  • при записи результата в формате hOCR обеспечено выставление в создаваемом файле параметров ocrp_dir и ocrp_lang;

  • модернизирован код для определения доступных языковых моделей;

  • улучшен код для формирования файлов в формате hOCR и убрано преобразование имён файлов на платформе Windows;

  • разрешено указание символьных значений в опциях "--oem" и "--psm";

  • в коде произведена замена функций access и _access на метод std::filesystem::exists(). Функции tprintf заменены на использование потока tesserr;

  • удалена поддержка платформы машинного обучения Tensorflow, которая в своё время была реализована, но так и не была задействована для выполнения ИИ-моделей распознавания;

  • улучшен установщик для платформы Windows;

  • субмодуль googletest обновлён до версии 1.15.2.

Теги:
Хабы:
Всего голосов 6: ↑6 и ↓0+9
Комментарии6

Другие новости

Ближайшие события