Обновить
4K+
4

Пользователь

12
Рейтинг
2
Подписчики
Отправить сообщение

Почему нам пришлось превратить нормативные документы в граф, а не просто загрузить их в векторную базу

Время на прочтение7 мин
Охват и читатели7.7K

Когда говорят про RAG, обычно имеют в виду довольно прямую схему: взять документы, нарезать их на фрагменты, посчитать эмбеддинги, сложить всё в векторную базу и поверх этого подключить LLM. На демо это часто работает. Иногда работает и на корпоративных данных. Но на нормативных документах такой подход очень быстро начинает сыпаться.

Мы увидели это на практике, когда строили систему для работы с нормативкой. Сначала задача выглядела стандартно: есть документы, есть вопросы пользователей, есть поиск по смыслу. Значит, нужен обычный RAG. Но довольно быстро стало ясно, что главная проблема здесь не генерация. Главная проблема в том, как представить документ так, чтобы retrieval не разрушал его структуру и смысл.

В итоге мы ушли от плоской индексации к иерархическим узлам, группам соседних пунктов, отдельному слою терминов и графу обязательных связей между фрагментами.

Читать далее

Информация

В рейтинге
640-й
Зарегистрирован
Активность

Специализация

ML разработчик
Ведущий