Gigantazavr13 фев в 09:15

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Средний

7 мин

12K

Data Engineering * PDFPython * Искусственный интеллектМашинное обучение *

Из песочницы

+21

Комментарии 8

avshkol 13 фев в 11:34

Интересно, а ноты каким-то образом можно распознавать и в RAG использовать?

Gigantazavr 13 фев в 15:29

Можно. Технология примерно та же - ноты превращаем в текст, формируем свод "правил", а потом подключаем RAG. Но это качественно следующий уровень сложности - пока туда не лезу)

cartonworld 13 фев в 15:10

Рис. 5.2. Ответ DeepSeek V3.2 на мой вопрос

Gigantazavr 13 фев в 15:33

Да, поэтому я и показал на примере DeepSeek без web searching. У Gemini 3 больше датасеты, чем у DeepSeek, но, помимо этого, он использует web-searching в авто-режиме, поэтому ориентируется хорошо в тех темах, которые можно загуглить.

ENick 14 фев в 06:46

Очень рыхло написано. "Проблема была следующая – как толстый формат png (целых 8 бит на 4 канала RGBa!) " - зачем "4 канала RGBa", когда сразу можно взять RGB, уже 3 канала, а потом взять один из каналов в качестве ч\б? И так практически везде, создаем проблему и мужественно решаем. Чувствуется школьный академический стиль.

Levhek_7 14 фев в 10:23

Моя задача похожа, но контент технический. Текст эпизодически перемежается с таблицами, формулами схемам/рисункам. Простые фильтры по координатам, скорее всего, отрежет часть инфы.

Какие пути решения можно рассмотреть для сохранения информации?

Gigantazavr 14 фев в 10:27

Если формат - digital pdf (то есть на пк создан), то в fitz или pdfplumber есть возможность вырезать таблицы - посмотрите доки. Если PDF - это OCR поверх изображения, то там сложнее: нужно придумывать эвристики, фильтровать по bbox и т.д. Я бы предположил, что фильтр по x0 для таблиц и схем подойдёт

pinkskin 14 фев в 19:16

Божешь мой, а чего про deepseek OCR не не слышал?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий