Обновить

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K
Всего голосов 23: ↑21 и ↓2+20
Комментарии8

Комментарии 8

Интересно, а ноты каким-то образом можно распознавать и в RAG использовать?

Можно. Технология примерно та же - ноты превращаем в текст, формируем свод "правил", а потом подключаем RAG. Но это качественно следующий уровень сложности - пока туда не лезу)

Рис. 5.2. Ответ DeepSeek V3.2 на мой вопрос

Gemini 3 Fast
Gemini 3 Fast

Да, поэтому я и показал на примере DeepSeek без web searching. У Gemini 3 больше датасеты, чем у DeepSeek, но, помимо этого, он использует web-searching в авто-режиме, поэтому ориентируется хорошо в тех темах, которые можно загуглить.

Очень рыхло написано. "Проблема была следующая – как толстый формат png (целых 8 бит на 4 канала RGBa!) " - зачем "4 канала RGBa", когда сразу можно взять RGB, уже 3 канала, а потом взять один из каналов в качестве ч\б? И так практически везде, создаем проблему и мужественно решаем. Чувствуется школьный академический стиль.

Моя задача похожа, но контент технический. Текст эпизодически перемежается с таблицами, формулами схемам/рисункам. Простые фильтры по координатам, скорее всего, отрежет часть инфы.

Какие пути решения можно рассмотреть для сохранения информации?

Если формат - digital pdf (то есть на пк создан), то в fitz или pdfplumber есть возможность вырезать таблицы - посмотрите доки. Если PDF - это OCR поверх изображения, то там сложнее: нужно придумывать эвристики, фильтровать по bbox и т.д. Я бы предположил, что фильтр по x0 для таблиц и схем подойдёт

Божешь мой, а чего про deepseek OCR не не слышал?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации