Обновить

Комментарии 9

Цену можно еще указать - 1000 страниц за 1 доллар

Что совсем неплохо, учитывая, что теперь можно использовать дешевую LLM для структуризации распознанных данных

Сравнения с Google Tesserаct есть?

А то непонятно, «зачем платить больше» ©

Tesseract же умеет только голый текст выцеплять. Таблицы и прочее не текстовое содержимое он не понимает (по крайней мере раньше было так).

Tesseract давно отстал от нейронок. Также как классическое компьютерное зрение отстал от распознавания с помощью нейронок. Применение сугубо нишевое. Имхо.

>Tesseract давно отстал от нейронок

кококо... в Tesseract "нейронки" появились в 2018 году. Если тебе не нужны таблицы, то тессеракт всех рвёт по скорости как тузик грелку. По качеству текста никакой разницы у tess 5.5 vs paddle 3.3 не вижу (в 2026м году)

Так-то нейронки и в fine reader в 2000г были.

Признаюсь, мой опыт с tesseract был в 22м году и больше к нему не возвращался.

В ваших тестах он "рвет" в том числе на фото с перспективой и тенями или в задаче идеального отсканированного тескта?

ты даже не потрудился понять коммент на который ответил.

1 gpt-им - "кто лучше paddleocr vs tesseract" - ответ: "paddleocr намного лучше и быстрее tesseract. скорость 50-200мс на страницу"

2 пердолимся 2-3 дня, по скорости одинаково, по качеству одинаково. скорость страницы 1-2 сек на A4000.

3 gpt-им "ты что собака обещала скорость и качество, как конкретно тюнить на скорость и качество" - ответ: "хрю-му, сила paddleocr не в скорости и качестве, а в том что таблички понимает"

лять... а мне не нужны твои таблички. у меня ХХ ТБ просто плохих сканов. и нормально это жуёт хотя бы gemma 12b, а не падлы всякие.


Ну и возвращаясь к исходному вопросу "зачем платить больше" - вот именно, что во многих задачах незачем, т.к. всё через gemma 12b прогонять слишком дорого.

Вместо ответа на вопрос, который задан без сарказма, как сейчас tess справляется с фото с тенями и перспективыными искаженями, т. к. раньше с этим у него были проблемы, вы зачем то ещё раз и в токсичной форме написали, в чем tess лучше...

"перспективыные искажения" - понятие очень растяжимое, странно ждать ответ по существу без конкретных вопросов.

Лично у меня в проде такие доки не требуется распознавать.

Вот на этой картинке tess распознал всё начиная с "как розовые яблоки".

paddleVL распознал печатный текст полностью, рукописный - облажался.

Разница в скорости в 10 раз (0.2сек на 1 ядро cpu vs 2сек на gpu)


Насколько помню тесс воспринимает только четко горизонтальный текст. Так что при желании можно подобрать примеры с вопиющим обсёром tess-а.

Так же добавлю, что разница у tess 5.5 и то что было в 2022м очень большая, несмотря на то что сами модели (tessdata) уже лет как 6-8 не менялись. Что-то в бинарнике улучшают.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin