dilnaz_047 мар 2025 в 03:29

Mistral AI запускает новую функцию AI OCR с впечатляющими результатами

3 мин

16K

Блог компании BotHubИскусственный интеллект

Комментарии 9

gmtd 7 мар 2025 в 05:21

Цену можно еще указать - 1000 страниц за 1 доллар

Что совсем неплохо, учитывая, что теперь можно использовать дешевую LLM для структуризации распознанных данных

dimonier 8 мар 2025 в 07:46

Сравнения с Google Tesserаct есть?

А то непонятно, «зачем платить больше» ©

alan008 8 мар 2025 в 16:33

Tesseract же умеет только голый текст выцеплять. Таблицы и прочее не текстовое содержимое он не понимает (по крайней мере раньше было так).

Mdm3 8 мар 2025 в 17:30

Tesseract давно отстал от нейронок. Также как классическое компьютерное зрение отстал от распознавания с помощью нейронок. Применение сугубо нишевое. Имхо.

nervnomancer 16 янв в 19:11

>Tesseract давно отстал от нейронок

кококо... в Tesseract "нейронки" появились в 2018 году. Если тебе не нужны таблицы, то тессеракт всех рвёт по скорости как тузик грелку. По качеству текста никакой разницы у tess 5.5 vs paddle 3.3 не вижу (в 2026м году)

Mdm3 16 янв в 20:43

Так-то нейронки и в fine reader в 2000г были.

Признаюсь, мой опыт с tesseract был в 22м году и больше к нему не возвращался.

В ваших тестах он "рвет" в том числе на фото с перспективой и тенями или в задаче идеального отсканированного тескта?

nervnomancer 17 янв в 07:54

ты даже не потрудился понять коммент на который ответил.

1 gpt-им - "кто лучше paddleocr vs tesseract" - ответ: "paddleocr намного лучше и быстрее tesseract. скорость 50-200мс на страницу"

2 пердолимся 2-3 дня, по скорости одинаково, по качеству одинаково. скорость страницы 1-2 сек на A4000.

3 gpt-им "ты что собака обещала скорость и качество, как конкретно тюнить на скорость и качество" - ответ: "хрю-му, сила paddleocr не в скорости и качестве, а в том что таблички понимает"

лять... а мне не нужны твои таблички. у меня ХХ ТБ просто плохих сканов. и нормально это жуёт хотя бы gemma 12b, а не падлы всякие.

Ну и возвращаясь к исходному вопросу "зачем платить больше" - вот именно, что во многих задачах незачем, т.к. всё через gemma 12b прогонять слишком дорого.

Mdm3 17 янв в 08:23

Вместо ответа на вопрос, который задан без сарказма, как сейчас tess справляется с фото с тенями и перспективыными искаженями, т. к. раньше с этим у него были проблемы, вы зачем то ещё раз и в токсичной форме написали, в чем tess лучше...

nervnomancer 17 янв в 16:56

"перспективыные искажения" - понятие очень растяжимое, странно ждать ответ по существу без конкретных вопросов.

Лично у меня в проде такие доки не требуется распознавать.

Вот на этой картинке tess распознал всё начиная с "как розовые яблоки".

paddleVL распознал печатный текст полностью, рукописный - облажался.

Разница в скорости в 10 раз (0.2сек на 1 ядро cpu vs 2сек на gpu)

Насколько помню тесс воспринимает только четко горизонтальный текст. Так что при желании можно подобрать примеры с вопиющим обсёром tess-а.

Так же добавлю, что разница у tess 5.5 и то что было в 2022м очень большая, несмотря на то что сами модели (tessdata) уже лет как 6-8 не менялись. Что-то в бинарнике улучшают.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий