GG1KENOBI 1 июл в 07:16

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Простой

8 мин

20K

Python * Искусственный интеллектМашинное обучение * Natural Language Processing * Хакатоны

Из песочницы

+13

Комментарии 21

decomeron 1 июл в 08:13

Еще бы переводить научили и вообще цены бы не было

digtatordigtatorov 1 июл в 09:47

Остается только гадать насколько фиговый ocr на тессеракте получился

Как там с таблицами? Изображениями в pdf? Боюсь что процентов 50% информации из доков просто теряется

GG1KENOBI 1 июл в 13:19

Безусловно, для каждого метода и подхода нужно просматривать несколько вариантов, но из тех, что нам удалось посмотреть за время хакатона, тесеракт показал лучший скор. Одна из причин - данные, вполне вероятно, что на других наборах будет другой результат. Вопрос исследования, кроме того, ocr инструменты чуть ли не каждый месяц выходят новые. Поэтому статья больше направлена на обзор опыта в хакатоне и возможность внедрения простых решений за короткий срок. Спасибо за вашу заинтересованность!

zizop 3 июл в 06:39

Кстати, очень важное замечание. Сейчас как раз мучаемся с качеством OCR и понимаем, что голый Tesseract - это вообще не вариант. Может у вас есть идеи, как можно улучшить качество распознавания? С удовольствием бы пообщался с вами на эту тему.

ovosh2281337 3 июл в 14:05

Я бы использовал vLLM, например, InternVL3 или Gemma 3n

RedFirefly 4 июл в 04:36

Есть идея - взять Abbyy Finereader. Распознает гораздо лучше Тессеракта.

Hopenolis 4 июл в 05:24

Он распознает специфически, генерирует шрифты с похожими искажениями. Это хорошо работает когда надо в пфд внести небольшие изменения там чтоб всё осталось выглядеть как было но если сохранить в ворд то фигня получается.

digtatordigtatorov 11 авг в 09:08

Есть варианты типо Donut для доков, но с русским проблемы

GG1KENOBI 4 июл в 14:05

Прошу заметить, что это было год назад :) Инструменты OCR развиваются очень быстро, на рынке есть очень много хороших решений и для каждой задачи нужно рассматривать каждый инструмент, так как результат может быть неоднозначный. На данный момент по некоторым бенчмаркам sota решением является Mistral OCR. Напишите мне и подберем для вас лучший инструмент.

slavius 1 июл в 12:37

Некоторые программы при сканировании добавляют текстовый слой, но с английским языком для русских текстов. Слой есть, а информации нет. Да и погрешности и дефекты сканирования добавят свою "изюминку" в тексты.

Но это работающая уже система, которую можно допиливать. Нечто похожее уже предлагают как "Внедрение ИИ в ваш документооборот".

GG1KENOBI 1 июл в 13:22

Я бы даже сказал, что не «можно», а нужно, так как это значительно расширяет возможности ллм и «смягчает» ее ограничения в знаниях, конечно, не без исключений.

Ravius 1 июл в 18:57

Метрики? Не не слышали. Зато ЛУЧШИЙ РАГ В МИРЕ.

Прикол raga в том, что дл пяти документов даже RAG не нужен. Залили в LLM и норм. А вот как найти все нужные документы, когда их десятки тысяч. - уже другой вопрос.

Ну тоесть у вас 10 документов, вы ищете 5. Это монетку можно кидать - есть шанс все нужные найти. А когда 10к документов, а вы не нашли тот самый... ну удачи вашей LLM ответить.

GG1KENOBI 4 июл в 14:10

Вы правы, что от части это еще мешок с котом, но этот подход имеет множество вариаций и дополнений, для достижения лучшего качества. При этом rag все-таки значительно "расширяет" область знаний LLM, и это нужно рассматривать при разработке систем. Ну и мы не говорили, что это лучший rag в мире :) просто рассказали про наш опыт и что rag это круто !

Hopenolis 2 июл в 00:10

И что, реально работает?

Из описания RAG следует что берутся небольшие кусочки в которых есть близкие совпадения и добавляются в промпт ллм чтоб она мог что то более осмысленное нагенерировать. У меня в голове эта картинка не складывается, для хорошего ответа нужен же не только небольшой кусочек в котором было какое то совпадение но и немалый кусок(много кусочков) непосредственно прилегающих к найденному.

GG1KENOBI 4 июл в 14:12

Да, работает. Вы не совсем правильно понимаете rag, можете написать мне, я постараюсь рассказать вам более подробно и вышлю материалы подкрепляющие эффективность данного подхода :)

Crash13 6 июл в 06:22

Можете здесь написать подробный ответ коллеге с материалами.

Зачем в частные переписки уходить.

GG1KENOBI 6 июл в 08:25

Слишком большой комментарий получится, подумаю над тем, чтобы отдельным постом сделать про rag подробно

awliya 3 июл в 05:59

Есть ведь notebook llm, ваш проект чем конкурентоспособен ?

GG1KENOBI 4 июл в 14:17

Во-первых, у нас не продукт и не проект, мы решали задачу в рамках хакатона.

Во-вторых, ваш вариант может не подойти заказчику, когда нужно собственное и локальное решение.
В-третьих, мы конкурировали только с командами на хакатоне :)

b1t0ne 7 июл в 06:19

На месте хакатона увидел штуку, походу кому-то месяц назад с помощью своей программы делал на заказ датасет для дефектов сварки как раз 🥰

helg1978 14 июл в 17:00

а как у вас RAG понимал что например "квартальная прибыль за 2025 год составила 20 млн", если первая и вторая цифра оказывались в разных чанках?

Мне удавалось достичь адекватных ответов по документам только используя LLM с большим количеством токенов, и нарезая исходный материал по принципу 1 документ = 1 чанк

Зарегистрируйтесь на Хабре, чтобы оставить комментарий