Хватит fine-tuning. Просто постройте RAG-пайплайн.
Я всё чаще вижу, как люди делают fine-tuning LLM под задачи, где это вообще не нужно.
В большинстве случаев вам не нужен очередной «наполовину дообученный» модельный франкенштейн — вам нужен RAG (Retrieval-Augmented Generation).
Почему:
Fine-tuning дорогой, медленный и хрупкий.
В большинстве кейсов не нужно «учить» модель — достаточно дать правильный контекст.
С RAG модель всегда актуальна: обновили документацию → обновили эмбеддинги → готово.
Чтобы доказать это, я собрал ассистента по документации на RAG:
Документация режется на чанки и эмбеддится
Запросы пользователей матчатся через косинусное сходство
GPT отвечает с нужным контекстом
Каждый запрос логируется → вы видите, с чем юзеры сталкиваются (пробелы в доках, запросы фич, инсайты по продукту)
👉 Живое демо: intlayer.org/doc/chat
👉 Полный разбор + код + шаблон: intlayer.org/blog/rag-powered-documentation-assistant
Моё мнение:
Для большинства задач с документацией и продуктом fine-tuning мёртв.
RAG проще, дешевле и куда более поддерживаемый.
Но, может быть, я не прав. Что думаете?
Есть ли будущее у связки fine-tuning + RAG, или RAG — очевидное решение для 80% кейсов?
P.S.: это перевод поста с английского на русский при помощи ChatGPT.