RAG-системы на арене: протестировали 5 популярных решений на реальных данных

Начнем с боли, знакомой каждому. У любой уважающей себя компании есть своя цифровая «антресоль» — растущая гора DOCX-документов, неструктурированные PDF-файлы, раздувшийся Confluence и километры переписки в почтовых ящиках. Найти там что-то часто попросту невозможно. И тут на сцену выходят LLM и RAG-системы.
Retrieval-Augmented Generation — это технология, которая обещает превратить информационную свалку в упорядоченную библиотеку. Идея простая: даем мощному ИИ доступ к корпоративным знаниям, а поисковик в нужный момент находит релевантный документ и подает его модели. Должен получиться идеальный корпоративный ассистент, который знает все о продуктах, помнит каждую инструкцию и отвечает клиентам мгновенно и без ошибок.
Но есть загвоздка. Что если этот умный помощник, вдруг начнет галлюцинировать?
Мы с командой решили устроить тест пяти RAG-системам на реальных данных. От корпоративных платформ до open-source решений — AutoFAQ Xplain, Yandex, AnythingLLM, Witsy и Onyx. Мы заставили их работать с неудобными форматами, включая отсканированные PDF и устроили слепой экзамен на точность ответов. В роли экзаменаторов выступили два независимых эксперта и две нейросети-оценщика.
В этой статье расскажем:
- Кто наши испытуемые и чем они отличаются под капотом.
- Как мы построили полосу препятствий из типичных корпоративных документов.
- Кто споткнулся уже на этапе подключения к данным.
- И главное — кто оказался самым точным и стабильным.
Результаты вас удивят. Также будет ссылка на GitHub — вы сможете повторить наш эксперимент.