Пост @sergei_ai — Python — 21.01 06:07 / Хабр

21 янв в 06:075.1K

Python * Big Data * Машинное обучение * Natural Language Processing *

RAG vs Fine-tuning: что выбрать для бизнес-данных

RAG даёт актуальные данные, Fine-tuning — застывшие знания

Задача: сделать Telegram-бота для сотрудников, который отвечает на вопросы по внутренним регламентам, инструкциям и политикам компании.

Первый вопрос: fine-tuning или RAG?

Fine-tuning отпал сразу

Регламенты обновляются — новая политика отпусков, изменения в ДМС, новый регламент согласований. Переобучать модель каждый раз?
Нужны точные ссылки — "это написано в п.3.2 Положения о командировках", а не "примерно так заведено"
Галлюцинации опасны — бот не должен выдумывать правила, которых нет
Конфиденциальность — отправлять внутренние документы в OpenAI для fine-tuning?

RAG решил все проблемы

Обновил документ = бот уже знает — без переобучения
Прозрачность — бот показывает источник: "согласно Положению о ДМС, раздел 4..."
Данные внутри периметра — эмбеддинги можно считать локально
Контроль — легко добавить/удалить документы из базы знаний

Типичные вопросы к боту

"Сколько дней отпуска у меня по ТК?"
→ Ответ + ссылка на Положение об отпусках
"Как согласовать командировку?"
→ Пошаговая инструкция + ссылка на регламент
"Что покрывает ДМС?"
→ Перечень услуг + ссылка ��а договор

Когда что выбирать

КритерийRAGFine-tuningДокументы обновляются✅❌Нужны ссылки на источник✅❌Конфиденциальные данные✅⚠️Специфичный тон ответов➖✅Быстрый MVP➖✅

Мой вывод

Для корпоративной базы знаний — однозначно RAG.

Fine-tuning оправдан, если:

База знаний статична (редко меняется)
Не нужны ссылки на источники
Важен уникальный стиль общения бота

А как вы решаете задачу корпоративного бота? RAG, fine-tuning, или готовые решения типа Notion AI?

-3