У меня на работе периодически прилетает задача: «вот тебе 30 PDF, разберись и сделай отчёт». Регламенты, отчёты, спецификации — всё в разных форматах, всё нужно было вчера. Раньше я открывал каждый файл, читал по диагонали, копировал куски в гугл-док. Занимало это полдня минимум.
На прошлой неделе наткнулся на research-docs — Claude Code скилл от LlamaIndex, который делает ровно это: берёт папку с документами, парсит их, отвечает на ваши вопросы и генерирует HTML-отчёт с цитатами, указывающими на конкретное место в оригинальном документе. С bounding box’ами прямо на странице PDF.
Разберу, как это устроено и стоит ли тащить в рабочий процесс.
Что это такое
LiteParse Samples — это набор демо от LlamaIndex, построенных вокруг LiteParse (их парсер документов). Внутри три инструмента:
Parser Comparison — визуальное сравнение LiteParse, PyPDF и PyMuPDF на реальных документах
Visual Citations — поиск по распарсенным документам с подсветкой совпадений прямо на изображении страницы
Research Docs — то, ради чего мы здесь: Claude Code скилл, который анализирует документы и генерирует отчёт с цитатами
Research-docs — это скилл, то есть расширение для Claude Code. Устанавливается одной командой, работает локально.
Как работает research-docs
Пайплайн:
Папка с документами (PDF, DOCX, PPTX, XLSX, изображения) ↓ LiteParse — извлекает текст и координаты элементов на странице ↓ Claude Code — анализирует содержимое, отвечает на ваш вопрос ↓ HTML-отчёт с ответом + цитаты с bounding box'ами на страницах PDF
Ключевой момент — цитаты с визуальной привязкой. Это не просто «по данным документа X, стр. 5». Это интерактивная ссылка, которая показывает конкретное место на конкретной странице PDF, обведённое рамкой. Можно открыть PDF-просмотрщик прямо в отчёте и убедиться, что нейросеть не выдумала цифру.
Для тех, кто работает с юридическими документами, финансовыми отчётами или регуляторикой — это критически важно. Галлюцинации в таких контекстах недопустимы, и возможность за секунду проверить каждый факт по источнику решает проблему.
Установка
Одна команда:
npx skills add run-llama/liteparse_samples --skill research_docs
Или вручную — скопировать папку research_docs в ~/.claude/skills/research-docs.
После этого в Claude Code появляется слэш-команда:
/research-docs ./my-pdfs "Какой общий доход за 2025 год?"
Указываете папку с документами и вопрос — получаете HTML-отчёт.
Какие форматы поддерживает
LiteParse парсит:
PDF (основной формат)
DOCX (Word)
PPTX (PowerPoint)
XLSX (Excel)
Изображения (через OCR)
Plaintext
То есть можно закинуть в папку микс из PDF-отчётов, Word-договоров и Excel-таблиц — и задать вопрос по всей совокупности. «Найди противоречия между договором и спецификацией» — вот такие запросы становятся реальными.
Parser Comparison — зачем это в наборе
LiteParse Samples включает визуальное сравнение трёх парсеров на реальных государственных документах (FDIC, Federal Reserve, CMS, IRS, WHO). Слева — оригинальный PDF, справа — текст, извлечённый каждым парсером.
Зачем это: чтобы вы сами увидели, где PyPDF теряет таблицы, где PyMuPDF путает колонки, и насколько LiteParse справляется лучше. Для тех, кто выбирает парсер для своего пайплайна — полезная демка. Открываете comparison/output/comparison.html в браузере и сравниваете.
Спойлер: на сложных таблицах и многоколоночных раскладках разница заметна. На простом текстовом PDF — все три справляются одинаково.
Visual Citations — поиск с подсветкой
Отдельная демка: вводите ключевое слово, и система показывает, где именно оно встречается в документах — с bounding box’ом на изображении страницы. Это простой substring match, не семантический поиск. Но для быстрой навигации по большому объёму документов — удобно.
Практический сценарий: вам прислали 500-страничный регламент, нужно найти все упоминания «персональные данные». Visual Citations покажет каждое вхождение с контекстом и визуальной привязкой к странице.
Что внутри: LiteParse
LiteParse — парсер от LlamaIndex. Работает локально, не отправляет данные наружу (что важно для конфиденциальных документов). Ключевое отличие от PyPDF/PyMuPDF — LiteParse сохраняет координаты каждого текстового элемента на странице. Поэтому и работают bounding box’ы в цитатах.
Это model-free парсер — не использует ML для извлечения текста (в отличие от, например, Unstructured или Amazon Textract). Плюс: быстро, стабильно, не нужен GPU. Минус: на рукописных документах или сканах с плохим качеством будет хуже, чем ML-решения.
Ограничения
Claude Code нужен. Research-docs — это скилл для Claude Code, а не standalone-инструмент. Если вы не пользуетесь Claude Code — этот конкретный инструмент вам не подходит. Но LiteParse + Visual Citations работают отдельно, на чистом Python.
Качество ответа зависит от модели. Скилл использует Claude для анализа — и качество зависит от того, насколько хорошо модель поняла контекст. На простых вопросах («какая сумма на стр. 3?») работает точно. На сложных аналитических запросах — может промахнуться, и тут цитаты особенно важны для проверки.
Стоимость. Каждый вызов — это токены Claude Code. Анализ 30 документов с длинным вопросом может стоить $5-10. Это не бесплатно.
Substring match, не семантический поиск. Visual Citations ищет точные совпадения, не «похожие по смыслу». Для полноценного RAG нужен отдельный пайплайн.
Как воспроизвести на своих данных
# Клонируем репозиторий git clone https://github.com/jerryjliu/liteparse_samples cd liteparse_samples # Устанавливаем зависимости pip install -r requirements.txt # Кладём свои PDF в data/ cp ~/my-documents/*.pdf data/ # Настраиваем docs.json (какие документы и страницы парсить) # Генерируем сравнение парсеров cd comparison && python generate.py # Генерируем Visual Citations cd ../visual_citations && python generate.py # Устанавливаем скилл для Claude Code cp -r research_docs ~/.claude/skills/research-docs # Используем # /research-docs ./data "Ваш вопрос"
docs.json — конфиг, где указываете файлы, страницы и описания:
[ { "name": "Квартальный отчёт", "file": "q3_report.pdf", "pages": [0, 1, 2, 3], "source": "internal", "desc": "Финансовый отчёт Q3 2025" } ]
Кому пригодится
Юристам и аналитикам, которые работают с большими пакетами документов
Разработчикам, которые строят RAG-пайплайны и ищут хороший парсер
Студентам, которым нужно быстро разобраться в 20 статьях для курсовой
Всем, кто устал читать PDF по диагонали и пропускать важное
Репозиторий: github.com/jerryjliu/liteparse_samples
Как вы работаете с большими объёмами документов? Есть ли инструменты, которые реально ускоряют процесс, а не создают иллюзию ускорения?