Комментарии 9
Цену можно еще указать - 1000 страниц за 1 доллар
Что совсем неплохо, учитывая, что теперь можно использовать дешевую LLM для структуризации распознанных данных
Сравнения с Google Tesserаct есть?
А то непонятно, «зачем платить больше» ©
Tesseract же умеет только голый текст выцеплять. Таблицы и прочее не текстовое содержимое он не понимает (по крайней мере раньше было так).
Tesseract давно отстал от нейронок. Также как классическое компьютерное зрение отстал от распознавания с помощью нейронок. Применение сугубо нишевое. Имхо.
>Tesseract давно отстал от нейронок
кококо... в Tesseract "нейронки" появились в 2018 году. Если тебе не нужны таблицы, то тессеракт всех рвёт по скорости как тузик грелку. По качеству текста никакой разницы у tess 5.5 vs paddle 3.3 не вижу (в 2026м году)
Так-то нейронки и в fine reader в 2000г были.
Признаюсь, мой опыт с tesseract был в 22м году и больше к нему не возвращался.
В ваших тестах он "рвет" в том числе на фото с перспективой и тенями или в задаче идеального отсканированного тескта?
ты даже не потрудился понять коммент на который ответил.
1 gpt-им - "кто лучше paddleocr vs tesseract" - ответ: "paddleocr намного лучше и быстрее tesseract. скорость 50-200мс на страницу"
2 пердолимся 2-3 дня, по скорости одинаково, по качеству одинаково. скорость страницы 1-2 сек на A4000.
3 gpt-им "ты что собака обещала скорость и качество, как конкретно тюнить на скорость и качество" - ответ: "хрю-му, сила paddleocr не в скорости и качестве, а в том что таблички понимает"
лять... а мне не нужны твои таблички. у меня ХХ ТБ просто плохих сканов. и нормально это жуёт хотя бы gemma 12b, а не падлы всякие.
Ну и возвращаясь к исходному вопросу "зачем платить больше" - вот именно, что во многих задачах незачем, т.к. всё через gemma 12b прогонять слишком дорого.
Вместо ответа на вопрос, который задан без сарказма, как сейчас tess справляется с фото с тенями и перспективыными искаженями, т. к. раньше с этим у него были проблемы, вы зачем то ещё раз и в токсичной форме написали, в чем tess лучше...

"перспективыные искажения" - понятие очень растяжимое, странно ждать ответ по существу без конкретных вопросов.
Лично у меня в проде такие доки не требуется распознавать.
Вот на этой картинке tess распознал всё начиная с "как розовые яблоки".
paddleVL распознал печатный текст полностью, рукописный - облажался.
Разница в скорости в 10 раз (0.2сек на 1 ядро cpu vs 2сек на gpu)
Насколько помню тесс воспринимает только четко горизонтальный текст. Так что при желании можно подобрать примеры с вопиющим обсёром tess-а.
Так же добавлю, что разница у tess 5.5 и то что было в 2022м очень большая, несмотря на то что сами модели (tessdata) уже лет как 6-8 не менялись. Что-то в бинарнике улучшают.
Mistral AI запускает новую функцию AI OCR с впечатляющими результатами