Комментарии 9
Сказка отлично объясняет базовую архитектуру RAG и баланс между скоростью и точностью.
Можно добавить. Эмбеддинги + векторный поиск. Гибридный поиск, метаданные, иерархические чанки. Ретривер + реранкер. Метрики качества и оценки. Индексы (HNSW, IVF). Мониторинг, обновления данных, права доступа.
В общем, команда сказочных героев пополниться новыми персонажами.
Суть статьи: RAG строится на двух этапах:
Быстрый этап: ANN-индекс (IVF/HNSW) — находит похожие фрагменты среди огромного объема данных (жертвуя точностью ради скорости).
Точный этап: Реранкер (кросс-энкодер) — перепроверяет и сортирует найденное, отбрасывая нерелевантные данные (жертвуя скоростью ради точности на финальном отрезке).
Как раз последнее время пытаюсь сделать как в сказке (точность и скорость), тестирую на локальной модели text-embedding-qodo-embed-1-1.5b. Может подскажете локальные варианты получше (для кодовой базы), если есть?
Если говорить про локальные модели для кода я пробовала Nomic Embed v2 (137M) и Snowflake Arctic Embed S (33M). Обе работают на CPU, качество хорошее, бесплатные, Nomic чуть точнее, Arctic быстрее. Для кода ещё важно не просто эмбеддинг, а гибрид с BM25, иначе имена переменных теряются.У меня в итоге встала связка: Arctic + BM25 + HNSW. А вы на чём сейчас тормозитесь на скорости или на точности?
Потерял доступ к акку Хабра, прошел целый квест по восстановлению чтобы поставить плюсик ) Даже не сколько за сам материал (подача классная, интересная, для начинающих самое то), но мне прям дико полезны были ссылки на использованную литературу. Полгода как "вкатываюсь" в ИИ-шечку, как-то не додумался до этого поста читать прям статьи, второй вечер зачитываюсь. Спасибо за наводку!

RAG: как Филин Палыч-реранкер навел порядок в цифровом королевстве