Анализ документов нейросетью с цитатами из источников: research-docs скилл для Claude Code / Habr

У меня на работе периодически прилетает задача: «вот тебе 30 PDF, разберись и сделай отчёт». Регламенты, отчёты, спецификации — всё в разных форматах, всё нужно было вчера. Раньше я открывал каждый файл, читал по диагонали, копировал куски в гугл-док. Занимало это полдня минимум.

На прошлой неделе наткнулся на research-docs — Claude Code скилл от LlamaIndex, который делает ровно это: берёт папку с документами, парсит их, отвечает на ваши вопросы и генерирует HTML-отчёт с цитатами, указывающими на конкретное место в оригинальном документе. С bounding box’ами прямо на странице PDF.

Разберу, как это устроено и стоит ли тащить в рабочий процесс.

Что это такое

LiteParse Samples — это набор демо от LlamaIndex, построенных вокруг LiteParse (их парсер документов). Внутри три инструмента:

Parser Comparison — визуальное сравнение LiteParse, PyPDF и PyMuPDF на реальных документах
Visual Citations — поиск по распарсенным документам с подсветкой совпадений прямо на изображении страницы
Research Docs — то, ради чего мы здесь: Claude Code скилл, который анализирует документы и генерирует отчёт с цитатами

Research-docs — это скилл, то есть расширение для Claude Code. Устанавливается одной командой, работает локально.

Как работает research-docs

Пайплайн:

Папка с документами (PDF, DOCX, PPTX, XLSX, изображения)
    ↓
LiteParse — извлекает текст и координаты элементов на странице
    ↓
Claude Code — анализирует содержимое, отвечает на ваш вопрос
    ↓
HTML-отчёт с ответом + цитаты с bounding box'ами на страницах PDF

Ключевой момент — цитаты с визуальной привязкой. Это не просто «по данным документа X, стр. 5». Это интерактивная ссылка, которая показывает конкретное место на конкретной странице PDF, обведённое рамкой. Можно открыть PDF-просмотрщик прямо в отчёте и убедиться, что нейросеть не выдумала цифру.

Для тех, кто работает с юридическими документами, финансовыми отчётами или регуляторикой — это критически важно. Галлюцинации в таких контекстах недопустимы, и возможность за секунду проверить каждый факт по источнику решает проблему.

Установка

Одна команда:

npx skills add run-llama/liteparse_samples --skill research_docs

Или вручную — скопировать папку research_docs в ~/.claude/skills/research-docs.

После этого в Claude Code появляется слэш-команда:

/research-docs ./my-pdfs "Какой общий доход за 2025 год?"

Указываете папку с документами и вопрос — получаете HTML-отчёт.

Какие форматы поддерживает

LiteParse парсит:

PDF (основной формат)
DOCX (Word)
PPTX (PowerPoint)
XLSX (Excel)
Изображения (через OCR)
Plaintext

То есть можно закинуть в папку микс из PDF-отчётов, Word-договоров и Excel-таблиц — и задать вопрос по всей совокупности. «Найди противоречия между договором и спецификацией» — вот такие запросы становятся реальными.

Parser Comparison — зачем это в наборе

LiteParse Samples включает визуальное сравнение трёх парсеров на реальных государственных документах (FDIC, Federal Reserve, CMS, IRS, WHO). Слева — оригинальный PDF, справа — текст, извлечённый каждым парсером.

Зачем это: чтобы вы сами увидели, где PyPDF теряет таблицы, где PyMuPDF путает колонки, и насколько LiteParse справляется лучше. Для тех, кто выбирает парсер для своего пайплайна — полезная демка. Открываете comparison/output/comparison.html в браузере и сравниваете.

Спойлер: на сложных таблицах и многоколоночных раскладках разница заметна. На простом текстовом PDF — все три справляются одинаково.

Visual Citations — поиск с подсветкой

Отдельная демка: вводите ключевое слово, и система показывает, где именно оно встречается в документах — с bounding box’ом на изображении страницы. Это простой substring match, не семантический поиск. Но для быстрой навигации по большому объёму документов — удобно.

Практический сценарий: вам прислали 500-страничный регламент, нужно найти все упоминания «персональные данные». Visual Citations покажет каждое вхождение с контекстом и визуальной привязкой к странице.

Что внутри: LiteParse

LiteParse — парсер от LlamaIndex. Работает локально, не отправляет данные наружу (что важно для конфиденциальных документов). Ключевое отличие от PyPDF/PyMuPDF — LiteParse сохраняет координаты каждого текстового элемента на странице. Поэтому и работают bounding box’ы в цитатах.

Это model-free парсер — не использует ML для извлечения текста (в отличие от, например, Unstructured или Amazon Textract). Плюс: быстро, стабильно, не нужен GPU. Минус: на рукописных документах или сканах с плохим качеством будет хуже, чем ML-решения.

Ограничения

Claude Code нужен. Research-docs — это скилл для Claude Code, а не standalone-инструмент. Если вы не пользуетесь Claude Code — этот конкретный инструмент вам не подходит. Но LiteParse + Visual Citations работают отдельно, на чистом Python.

Качество ответа зависит от модели. Скилл использует Claude для анализа — и качество зависит от того, насколько хорошо модель поняла контекст. На простых вопросах («какая сумма на стр. 3?») работает точно. На сложных аналитических запросах — может промахнуться, и тут цитаты особенно важны для проверки.

Стоимость. Каждый вызов — это токены Claude Code. Анализ 30 документов с длинным вопросом может стоить $5-10. Это не бесплатно.

Substring match, не семантический поиск. Visual Citations ищет точные совпадения, не «похожие по смыслу». Для полноценного RAG нужен отдельный пайплайн.

Как воспроизвести на своих данных

# Клонируем репозиторий
git clone https://github.com/jerryjliu/liteparse_samples
cd liteparse_samples

# Устанавливаем зависимости
pip install -r requirements.txt

# Кладём свои PDF в data/
cp ~/my-documents/*.pdf data/

# Настраиваем docs.json (какие документы и страницы парсить)
# Генерируем сравнение парсеров
cd comparison && python generate.py

# Генерируем Visual Citations
cd ../visual_citations && python generate.py

# Устанавливаем скилл для Claude Code
cp -r research_docs ~/.claude/skills/research-docs

# Используем
# /research-docs ./data "Ваш вопрос"

docs.json — конфиг, где указываете файлы, страницы и описания:

[
  {
    "name": "Квартальный отчёт",
    "file": "q3_report.pdf",
    "pages": [0, 1, 2, 3],
    "source": "internal",
    "desc": "Финансовый отчёт Q3 2025"
  }
]

Кому пригодится

Юристам и аналитикам, которые работают с большими пакетами документов
Разработчикам, которые строят RAG-пайплайны и ищут хороший парсер
Студентам, которым нужно быстро разобраться в 20 статьях для курсовой
Всем, кто устал читать PDF по диагонали и пропускать важное

Репозиторий: github.com/jerryjliu/liteparse_samples

Как вы работаете с большими объёмами документов? Есть ли инструменты, которые реально ускоряют процесс, а не создают иллюзию ускорения?