RAG-Anything — универсальный фреймворк для глубокого анализа. Подробнее о нём рассказывают сотрудники лаборатории искусственного интеллекта ИТ-компании «Криптонит».
Метод RAG (Retrieval-Augmented Generation, или извлечение и расширенная генерация) позволяет большим языковым моделям обращаться к внешним базам данных. Однако у него есть фундаментальный недостаток: классический RAG работает исключительно с текстом.
При этом в научных статьях, отчётах и технической документации значительная часть данных представлена в виде изображений: графиков, формул, фотографий, карт. Поэтому традиционные системы ИИ либо игнорируют такую информацию, либо ограничиваются анализом подписей к изображениям.
Для решения этой проблемы команда исследователей из Гонконгского университета представила RAG-Anything — универсальный фреймворк, который позволяет обрабатывать разные типы данных как единую сеть взаимосвязанных объектов.
В основе этой мультимодальной системы лежит стратегия двойного графа (dual-graph construction), которая создаёт два типа связей:
Перекрёстно-модальные связи, соединяющие разные типы данных. Например, график связывается не только с текстовой подписью, но и с фрагментом текста, где он упоминается.
Текстовые семантические связи, фиксирующие смысловые отношения между фрагментами текста. Например, «… как вы можете видеть на графике 1… подробнее см. в таблице 2».
Объединяя эти представления, RAG-Anything создаёт единую «карту знаний» документа. Это позволяет системе проводить гибридный поиск: сочетающий в себе навигацию по структурным связям в графах и семантический поиск по смыслу.
В результате на сложный запрос ИИ может дать более полный и корректный ответ, собрав фактические данные не только из текста, но и из соответствующих иллюстраций.
Это расширяет возможности ИИ в медицине, финансовой аналитике, анализе технической документации и во многих других областях, где критически важна полнота информации.