Комментарии 20
Еще бы переводить научили и вообще цены бы не было
Остается только гадать насколько фиговый ocr на тессеракте получился
Как там с таблицами? Изображениями в pdf? Боюсь что процентов 50% информации из доков просто теряется
Безусловно, для каждого метода и подхода нужно просматривать несколько вариантов, но из тех, что нам удалось посмотреть за время хакатона, тесеракт показал лучший скор. Одна из причин - данные, вполне вероятно, что на других наборах будет другой результат. Вопрос исследования, кроме того, ocr инструменты чуть ли не каждый месяц выходят новые. Поэтому статья больше направлена на обзор опыта в хакатоне и возможность внедрения простых решений за короткий срок. Спасибо за вашу заинтересованность!
Кстати, очень важное замечание. Сейчас как раз мучаемся с качеством OCR и понимаем, что голый Tesseract - это вообще не вариант. Может у вас есть идеи, как можно улучшить качество распознавания? С удовольствием бы пообщался с вами на эту тему.
Я бы использовал vLLM, например, InternVL3 или Gemma 3n
Есть идея - взять Abbyy Finereader. Распознает гораздо лучше Тессеракта.
Прошу заметить, что это было год назад :) Инструменты OCR развиваются очень быстро, на рынке есть очень много хороших решений и для каждой задачи нужно рассматривать каждый инструмент, так как результат может быть неоднозначный. На данный момент по некоторым бенчмаркам sota решением является Mistral OCR. Напишите мне и подберем для вас лучший инструмент.
Некоторые программы при сканировании добавляют текстовый слой, но с английским языком для русских текстов. Слой есть, а информации нет. Да и погрешности и дефекты сканирования добавят свою "изюминку" в тексты.
Но это работающая уже система, которую можно допиливать. Нечто похожее уже предлагают как "Внедрение ИИ в ваш документооборот".
Метрики? Не не слышали. Зато ЛУЧШИЙ РАГ В МИРЕ.
Прикол raga в том, что дл пяти документов даже RAG не нужен. Залили в LLM и норм. А вот как найти все нужные документы, когда их десятки тысяч. - уже другой вопрос.
Ну тоесть у вас 10 документов, вы ищете 5. Это монетку можно кидать - есть шанс все нужные найти. А когда 10к документов, а вы не нашли тот самый... ну удачи вашей LLM ответить.
Вы правы, что от части это еще мешок с котом, но этот подход имеет множество вариаций и дополнений, для достижения лучшего качества. При этом rag все-таки значительно "расширяет" область знаний LLM, и это нужно рассматривать при разработке систем. Ну и мы не говорили, что это лучший rag в мире :) просто рассказали про наш опыт и что rag это круто !
И что, реально работает?
Из описания RAG следует что берутся небольшие кусочки в которых есть близкие совпадения и добавляются в промпт ллм чтоб она мог что то более осмысленное нагенерировать. У меня в голове эта картинка не складывается, для хорошего ответа нужен же не только небольшой кусочек в котором было какое то совпадение но и немалый кусок(много кусочков) непосредственно прилегающих к найденному.
Есть ведь notebook llm, ваш проект чем конкурентоспособен ?
На месте хакатона увидел штуку, походу кому-то месяц назад с помощью своей программы делал на заказ датасет для дефектов сварки как раз 🥰
а как у вас RAG понимал что например "квартальная прибыль за 2025 год составила 20 млн", если первая и вторая цифра оказывались в разных чанках?
Мне удавалось достичь адекватных ответов по документам только используя LLM с большим количеством токенов, и нарезая исходный материал по принципу 1 документ = 1 чанк
Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT