Почему граф в RAG работает лучше, чем вы думаете… но не так, как вам рассказали / Habr

В последнее время RAG-архитектуры стали одним из самых популярных подходов в построении приложений на основе LLM. Их активно внедряют в корпоративные системы, чат-боты, внутренние поисковые движки и инструменты анализа данных. И в этих RAG-решениях все чаще обращаются к графовым базам данных, что обусловлено их способностью эффективно обрабатывать сложные взаимосвязи.

Сделайте мне RAG с блэкджеком!

В этой статье я опишу своё мнение относительно того, в каких ситуациях графовые базы данных действительно оправданы в RAG, а в каких стоит остаться на традиционном векторном подходе. Это может быть полезно для разработчиков и исследователей, которые ищут оптимальные инструменты для построения RAG-решений и хотят понять, когда графовые базы данных могут помочь в их задачах.

Для своих экспериментов я выбрал Neo4j, оценив преимущества бесплатной версии Community Edition, качественной документации и поддержки активного сообщества.

Когда графовая структура эффективна в RAG

Графовые базы данных полностью раскрывают свой потенциал только тогда, когда данные характеризуются высокой степенью взаимосвязей и не укладываются в простые иерархические структуры. В таких случаях стандартный векторный поиск просто не способен достаточно полно отразить контекстные связи между сущностями. Выбор между графовым и векторным подходами всегда основывается на специфике вашего домена данных, их структуре и форме представления.

Вот типичные области успешного применения:

Юридическая документация: многочисленные взаимосвязанные сущности — лица, документы, нормативные акты, судебные прецеденты — требуют сложного поиска с учетом контекста и взаимосвязей. Это идеально ложится на графовую структуру.
Корпоративные структуры: коннекты между подразделениями, сотрудниками, проектами и бизнес‑процессами. В таких случаях графовый подход значительно упрощает выявление скрытых взаимосвязей и оптимизацию процессов.
Транзакционные системы (опыт Big Tech): крупные технологические компании (например, PayPal, Netflix и LinkedIn) используют графовые базы для анализа финансовых транзакций, борьбы с мошенничеством и выявления аномалий. Графы позволяют быстро находить и анализировать транзакционные паттерны и взаимосвязи, которые было бы сложно или невозможно выявить традиционными средствами.
E‑commerce платформы: графы эффективно применяются для построения рекомендательных систем и анализа поведения пользователей, так как позволяют учитывать не только похожесть товаров, но и сложные взаимосвязи между пользователями, товарами, категориями и брендами.

Таким образом, если задача требует анализа сложных, многомерных взаимосвязей и простые подходы не дают нужного контекста, графовые базы становятся идеальным решением для реализации RAG-пайплайнов.

Преимущества графовых баз данных (на примере Neo4j)

Графовые базы данных дают целый ряд преимуществ при построении RAG-пайплайнов, особенно если используется зрелое решение. Например, Neo4j. Этот инструмент не просто сохраняет графовую структуру, но и предоставляет богатую экосистему для анализа, навигации и взаимодействия с данными.

Помимо Neo4j, стоит обратить внимание на такие проверенные временем решения, как Memgraph и JanusGraph, каждое из которых обладает своими сильными сторонами и особенностями. Memgraph, в частности, набирает популярность благодаря курсу на интеграцию с LLM.

Вот преимущества графовых баз данных, которые я считаю особенно важными:

• Четкость и прозрачность структуры

Графовая модель – это интуитивно понятное представление данных. Узлы и связи легко интерпретируются как сущности и их отношения: это делает структуру доступной для понимания как человеком, так и моделью.

Для RAG это особенно важно: когда LLM получает результат с контекстом, например, не просто «документ A», а «документ A, созданный подразделением B и ссылающийся на C», точность ответа заметно возрастает.

• Эффективные и гибкие запросы

Запросы в графовых базах данных позволяют легко задавать сложные условия, включая фильтрацию по типу связи, направлению, атрибутам узлов и глубине перехода. Для этого используются специализированные языки запросов, такие как Cypher (в Neo4j) или Gremlin (поддерживается многими графовыми базами данных). Memgraph также использует Cypher, но с некоторыми расширениями, ориентированными на потоковую обработку данных и анализ в реальном времени. Эти языки предоставляют мощные инструменты для навигации по графу и извлечения необходимой информации.

Например, можно запросить все документы, которые:

были созданы подразделением X,
ссылаются на закон Y,
являются ответом на исходящий запрос Z.

Такую задачу с векторным поиском или SQL реализовать либо невозможно, либо крайне сложно.

• Повышенная релевантность за счет контекста

Векторный поиск хорош, но у него нет представления о структуре мира. Графы, наоборот, дают структуру и контекст. Например, если два узла имеют одинаковые embedding-векторы, но один связан с ключевым подразделением, а другой – с вспомогательной сущностью, результат поиска по графу может быть скорректирован в пользу более релевантного узла. Это можно настраивать вручную или с помощью алгоритмов, что и даёт гибкость.

• Использование графовых алгоритмов Neo4j

Это, на мой взгляд, одно из сильнейших преимуществ.

Neo4j предоставляет библиотеку алгоритмов GDS (Graph Data Science), которые позволяют проводить дополнительные вычисления поверх графа и влиять на RAG следующим образом:

PageRank – определение важнейших узлов в графе (например, центральных понятий, нормативов, ключевых документов).
Кластеризация (Louvain, Label Propagation) – группировка узлов по темам или областям, что позволяет добавлять тематический контекст.
Поиск кратчайшего пути и A* – можно использовать для объяснимых связей, например: «Почему LLM вернула этот ответ?».
Node Similarity – поиск схожих сущностей не по вектору, а по структурному положению в графе.

Что особенно важно – узлы и связи в Neo4j могут иметь параметры, которые можно использовать в логике. Например, узлы документов могут иметь веса доверия, даты, версии. А связи могут иметь атрибуты типа «важность», «направление», «дата создания».

Это открывает большие возможности для кастомизации и адаптации логики RAG к конкретной предметной области. Можно даже включать веса этих параметров в итоговую метрику релевантности или использовать их в комбинированных score-функциях.

• Хорошая масштабируемость в рамках одного домена

Графы особенно устойчивы к росту сложности, когда речь идет не о миллионах документов, а о десятках тысяч взаимосвязанных сущностей (например, внутренних политик, решений, писем, запросов и т.д.). Глубокая связность и компактность представления позволяют системе «держать в голове» большой объем контекста, не теряя производительности.

Недостатки графовых баз в RAG

Хотя графовые базы дают мощные возможности, их применение в RAG-сценариях требует серьезных усилий и продуманной архитектуры. Вот ключевые сложности, с которыми я столкнулся:

• Сложность проектирования структуры

Даже с участием LLM для генерации узлов и связей, основная ответственность за дизайн графа ложится на эксперта. Он должен:

понять предметную область;
решить, что станет узлом, что – связью;
определить типы, атрибуты и направление связей.

Ошибки на этом этапе дорого обходятся: в отличие от плоской базы или векторного индекса, перестроить граф сложно. Структура должна быть спроектирована «на вырост» – с учетом будущих сценариев. Представьте, что вы начали с простого графа, где документы связаны только отношением «упоминает». Если позже потребуется добавить информацию о том, какие документы «опровергают» или «подтверждают» другие, потребуется существенная модификация структуры графа, что может быть очень затратно.

• Сложность обновления и поддержки

Поддержка графа во времени – отдельная проблема:

Нельзя просто «добавить строку в таблицу».
Нужно определить, как новые сущности соотносятся с уже существующими.
При изменении логики часто приходится переподключать узлы, переименовывать типы связей и обновлять атрибуты.

Это особенно критично, если структура данных развивается или часто меняется.

• Ограничения бесплатной Neo4j Community Edition

Бесплатная версия Neo4j – мощная, но с рядом архитектурных ограничений, о которых важно знать заранее:

Отсутствие поддержки нескольких баз данных (multi-db).
Нет механизмов авторизации на уровне базы – сложно реализовать мультитенантность.
Ограничена работа с плагинами, интеграциями и кластерами.

Эти ограничения не критичны для экспериментов, но в продакшене требуют обходных решений.

Ограничения Neo4j Community Edition в продакшн-решениях

• Одна сущность – одна база

Из-за отсутствия поддержки нескольких баз данных, вся информация должна храниться в одной общей структуре. Это делает невозможным четкое разделение между проектами, клиентами, отделами, а также изоляцию тестовых и продакшн-данных. В результате, граф быстро превращается в перегруженную сеть, которую сложно поддерживать и защищать.

• Нет горизонтального масштабирования

Community-версия не поддерживает кластеризацию, репликацию, автоматический failover и распределение нагрузки. Это значит, что при росте данных или числа пользователей узкое место быстро становится проблемой.

Эффективно использовать Community Edition Neo4j бесплатно и без боли в продакшене можно в следующих сценариях:

Пилотные проекты и прототипы, особенно в R&D-командах.
Внутренние инструменты с ограниченным числом пользователей.
Области, где данные меняются не слишком часто, и можно заранее спроектировать граф.
Нишевые приложения с узкой предметной областью, где граф невелик по размеру, но важен по структуре.

Если ваша система выходит за эти рамки, то скорее всего вам придётся либо перейти на Enterprise, либо использовать Neo4j как компонент внутри более масштабной архитектуры.

Практический опыт: построение RAG-системы для маршрутизации входящих документов

В рамках экспериментального RAG-проекта была реализована графовая база знаний, отражающая функциональные обязанности отделов организации. Основная задача заключалась в автоматизации маршрутизации входящих документов – определении ответственного отдела и объяснении причин такого выбора.

Подход

После анализа исходных данных – формулировок функций отделов – было принято решение построить графовую модель, где:

Узлами становились ключевые сущности, встречающиеся в формулировках функций: «бюджет», «заказчики», «дебиторская задолженность», «документооборот», «строительный объект» и т.д.
Связями между узлами-отделами выступали действия-глаголы, отражающие функционал: «контролирует», «осуществляет», «разрабатывает», «организует», «участвует» и пр.

Автоматизация с использованием LLM

Процесс построения графа был невозможен вручную из-за объема и неструктурированности данных. Поэтому была задействована LLM-модель, которая:

Анализировала текстовое описание функций отдела.
Извлекала сущности и действия.
Формировала структурированный JSON с выделенными узлами и связями.
На его основе формировался граф в Neo4j, дополнительно обогащённый векторами (эмбеддингами), рассчитанными по описанию узлов и связей.

Принцип работы системы

На входе система получала PDF-документ – обращение или письмо в Организацию.

Далее происходили следующие этапы:

Парсинг и очистка текста с помощью предобработчика.
Извлечение сущностей из текста письма с помощью той же LLM.
Векторизация запроса и поиск наиболее близкого по смыслу узла в графе.
Определение отдела, связанного с этим узлом через входящую связь.
Формирование обоснования, включающего:
• найденную сущность;
• тип действия (связь);
• название отдела, ответственного за данную функцию.

Пример:

Запрос пользователя: «контроль строительного объекта»

Система возвращает:

→ Узел: Строительный объект

→ Связь: Контролирует

→ Отдел: Отдел контроля строительных объектов

Итоги и неожиданные инсайты

Ожидаемый результат – автоматическое определение ответственного отдела в организации – не был достигнут с высокой точностью. Главная причина – низкое качество исходных описаний функций, предоставленных пользователями. Они оказались слишком общими, формальными и неоднородными. Однако в процессе реализации выяснилось, что такая графовая структура:

подходит для анализа бизнес-процессов;
позволяет выявлять дублирование функций между отделами;
помогает находить «слепые зоны», где отсутствует контроль или не назначена ответственность;
может стать основой для реинжиниринга организационной структуры.

Перспективы развития

Следующим шагом в эволюции системы можно рассматривать переход к генерации запросов на языке Cypher на основе пользовательского текста. Это позволит использовать всю силу графа – проводить сложные цепочки поиска, делать выводы и формировать объяснимые ответы в связке с LLM.

Заключение

Графовые базы данных представляют собой мощный, но специализированный инструмент в архитектуре RAG. Их применение оправдано преимущественно в задачах, где данные обладают высокой степенью взаимосвязанности и контекст имеет решающее значение для качества извлечения информации.

Тем не менее, такие решения требуют значительных усилий на этапе проектирования и дальнейшего сопровождения. Дополнительно следует учитывать ограничения, присущие бесплатной версии Neo4j, особенно в контексте масштабирования и эксплуатации в продакшене.

Перед внедрением графового подхода в RAG-пайплайн, рекомендуется тщательно оценить следующие аспекты:

Насколько важна плотность и сложность связей в вашей предметной области?
Если структура данных может быть эффективно представлена в виде таблиц или дерева, граф, скорее всего, не оправдает себя.
Готова ли команда к разработке и поддержке графовой модели?
Построение качественного графа требует глубокого понимания предметной области и аккуратного управления эволюцией структуры данных.
Будут ли ограничения Community-версии Neo4j критичны для масштабируемости и эксплуатации проекта?
В ряде случаев бесплатная версия подходит для пилотных решений и небольших внутренних систем, но не для крупных и многопользовательских сервисов.

Графовая база – это не замена классической RAG-модели, а инструмент, способный существенно усилить её там, где типовые подходы перестают быть эффективными. При правильной постановке задачи и осознанном проектировании, графовые методы демонстрируют высокую релевантность и устойчивость к росту сложности данных.