khmelkoff18 июн в 14:23

Как мы с Claude Code учились оценивать качество RAG системы

Простой

6 мин

9.8K

Искусственный интеллектNatural Language Processing * Машинное обучение *

Туториал

Комментарии 6

alexchizik 18 июн в 14:28

Все то же самое пишется за пару часов на чистом Python без всяких субагентов и псевдоинновационного вайб-воркинга, который здесь явно послужил лишь оправданием для накрутки охватов)

khmelkoff 18 июн в 14:51

Здравствуйте. Там всё на питоне и написано. инструменты, библиотека, rag система. ещё немного маркдауна, html и JavaScript. Статья в том числе и про то, как всё-равно пришлось написать код.

Spyman 19 июн в 01:37

Как по мне - сейчас самая интересная тема, как раз тема оценки эффективности инструментов накрученных поверх llm. Хорошая статья. А ваши задачи без rag не решаются? Например положить все данные просто файлом рядом с моделью если это возможно. Интересно было бы ещё протестировать тут сценарий rag против cli в контексте затрат токенов. У меня в части задач выходило, что модель куда эффективнее сама искал необходимую часть документа базовыми unix инструментами, чем получая избыточные данные от rag, которые ей принудительно приходилось читать полностью.

khmelkoff 19 июн в 06:00

Спасибо. Отличный вопрос!

А ваши задачи без rag не решаются? Например положить все данные просто файлом рядом с моделью если это возможно.

В API Anthropic есть система кеширования, кэш живёт 5 минут. Если мы работаем с одним и тем же документом, то его можно закешировать и сэкономить на токенах. Качество ответов будет выше, чем у простейшей RAG системы. Картинка с дашбордом как раз этот эффект показывает. Дело в том, что бенчмарк синтетический. Я его сделал на gemma4:31b. Она получала тему для вопроса, но видела весь документ целиком, поэтому RAG уступает по качеству там, где в метрике используется "правильный" ответ.

модель куда эффективнее сама искал необходимую часть документа базовыми unix инструментами, чем получая избыточные данные от rag

Если RAG - просто векторный поиск, так скорее всего и будет. Сравнительно новые архитектуры предполагают использование в RAG агентов и LLM-судьи. В зависимости от его решения может адаптивно меняться количество чанков в выдаче, переформулироваться и дополняться вопрос, или вообще отключаться выдача, если LLM-судья решил, что для этого вопроса RAG не нужен.

edisson_89 1 июл в 06:22

Курс по вайб-воркингу для непрограммистов, а к финалу у человека CORSMiddleware, JSONL и subagents с инструкцией 'do not narrate your steps'. Где то плачет один маркетолог, которому обещали что кодить больше не придется.

khmelkoff 3 июл в 15:46

Спасибо за комментарий, повеселили плачущим маркетологом. Я Data Scientist, а не маркетолог, но кажется, программистов на курс тоже берут) Почти на каждом задании ловил себя на желании написать скрипт руками, вместо того чтобы просто попросить Клода. Привычка сильнее курса. Зато есть вещи, которые я искренне не люблю делать сам: писать readme или строить дашборды по результатам. Тут я красиво умею изображать вайб-воркинг.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий