Как стать автором
Поиск
Написать публикацию
Обновить

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров20K
Всего голосов 17: ↑15 и ↓2+13
Комментарии20

Комментарии 20

Еще бы переводить научили и вообще цены бы не было

Остается только гадать насколько фиговый ocr на тессеракте получился

Как там с таблицами? Изображениями в pdf? Боюсь что процентов 50% информации из доков просто теряется

Безусловно, для каждого метода и подхода нужно просматривать несколько вариантов, но из тех, что нам удалось посмотреть за время хакатона, тесеракт показал лучший скор. Одна из причин - данные, вполне вероятно, что на других наборах будет другой результат. Вопрос исследования, кроме того, ocr инструменты чуть ли не каждый месяц выходят новые. Поэтому статья больше направлена на обзор опыта в хакатоне и возможность внедрения простых решений за короткий срок. Спасибо за вашу заинтересованность!

Кстати, очень важное замечание. Сейчас как раз мучаемся с качеством OCR и понимаем, что голый Tesseract - это вообще не вариант. Может у вас есть идеи, как можно улучшить качество распознавания? С удовольствием бы пообщался с вами на эту тему.

Я бы использовал vLLM, например, InternVL3 или Gemma 3n

Он распознает специфически, генерирует шрифты с похожими искажениями. Это хорошо работает когда надо в пфд внести небольшие изменения там чтоб всё осталось выглядеть как было но если сохранить в ворд то фигня получается.

Прошу заметить, что это было год назад :) Инструменты OCR развиваются очень быстро, на рынке есть очень много хороших решений и для каждой задачи нужно рассматривать каждый инструмент, так как результат может быть неоднозначный. На данный момент по некоторым бенчмаркам sota решением является Mistral OCR. Напишите мне и подберем для вас лучший инструмент.

Некоторые программы при сканировании добавляют текстовый слой, но с английским языком для русских текстов. Слой есть, а информации нет. Да и погрешности и дефекты сканирования добавят свою "изюминку" в тексты.

Но это работающая уже система, которую можно допиливать. Нечто похожее уже предлагают как "Внедрение ИИ в ваш документооборот".

Я бы даже сказал, что не «можно», а нужно, так как это значительно расширяет возможности ллм и «смягчает» ее ограничения в знаниях, конечно, не без исключений.

Метрики? Не не слышали. Зато ЛУЧШИЙ РАГ В МИРЕ.

Прикол raga в том, что дл пяти документов даже RAG не нужен. Залили в LLM и норм. А вот как найти все нужные документы, когда их десятки тысяч. - уже другой вопрос.

Ну тоесть у вас 10 документов, вы ищете 5. Это монетку можно кидать - есть шанс все нужные найти. А когда 10к документов, а вы не нашли тот самый... ну удачи вашей LLM ответить.

Вы правы, что от части это еще мешок с котом, но этот подход имеет множество вариаций и дополнений, для достижения лучшего качества. При этом rag все-таки значительно "расширяет" область знаний LLM, и это нужно рассматривать при разработке систем. Ну и мы не говорили, что это лучший rag в мире :) просто рассказали про наш опыт и что rag это круто !

И что, реально работает?

Из описания RAG следует что берутся небольшие кусочки в которых есть близкие совпадения и добавляются в промпт ллм чтоб она мог что то более осмысленное нагенерировать. У меня в голове эта картинка не складывается, для хорошего ответа нужен же не только небольшой кусочек в котором было какое то совпадение но и немалый кусок(много кусочков) непосредственно прилегающих к найденному.

Да, работает. Вы не совсем правильно понимаете rag, можете написать мне, я постараюсь рассказать вам более подробно и вышлю материалы подкрепляющие эффективность данного подхода :)

Можете здесь написать подробный ответ коллеге с материалами.

Зачем в частные переписки уходить.

Слишком большой комментарий получится, подумаю над тем, чтобы отдельным постом сделать про rag подробно

Есть ведь notebook llm, ваш проект чем конкурентоспособен ?

Во-первых, у нас не продукт и не проект, мы решали задачу в рамках хакатона.

Во-вторых, ваш вариант может не подойти заказчику, когда нужно собственное и локальное решение.
В-третьих, мы конкурировали только с командами на хакатоне :)

На месте хакатона увидел штуку, походу кому-то месяц назад с помощью своей программы делал на заказ датасет для дефектов сварки как раз 🥰

а как у вас RAG понимал что например "квартальная прибыль за 2025 год составила 20 млн", если первая и вторая цифра оказывались в разных чанках?

Мне удавалось достичь адекватных ответов по документам только используя LLM с большим количеством токенов, и нарезая исходный материал по принципу 1 документ = 1 чанк

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации