Комментарии 8
Интересно, а ноты каким-то образом можно распознавать и в RAG использовать?
Рис. 5.2. Ответ DeepSeek V3.2 на мой вопрос

Очень рыхло написано. "Проблема была следующая – как толстый формат png (целых 8 бит на 4 канала RGBa!) " - зачем "4 канала RGBa", когда сразу можно взять RGB, уже 3 канала, а потом взять один из каналов в качестве ч\б? И так практически везде, создаем проблему и мужественно решаем. Чувствуется школьный академический стиль.
Моя задача похожа, но контент технический. Текст эпизодически перемежается с таблицами, формулами схемам/рисункам. Простые фильтры по координатам, скорее всего, отрежет часть инфы.
Какие пути решения можно рассмотреть для сохранения информации?
Если формат - digital pdf (то есть на пк создан), то в fitz или pdfplumber есть возможность вырезать таблицы - посмотрите доки. Если PDF - это OCR поверх изображения, то там сложнее: нужно придумывать эвристики, фильтровать по bbox и т.д. Я бы предположил, что фильтр по x0 для таблиц и схем подойдёт
Божешь мой, а чего про deepseek OCR не не слышал?

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору