RAG vs Fine-tuning: что выбрать для бизнес-данных

RAG даёт актуальные данные, Fine-tuning — застывшие знания
Задача: сделать Telegram-бота для сотрудников, который отвечает на вопросы по внутренним регламентам, инструкциям и политикам компании.
Первый вопрос: fine-tuning или RAG?
Fine-tuning отпал сразу
Регламенты обновляются — новая политика отпусков, изменения в ДМС, новый регламент согласований. Переобучать модель каждый раз?
Нужны точные ссылки — "это написано в п.3.2 Положения о командировках", а не "примерно так заведено"
Галлюцинации опасны — бот не должен выдумывать правила, которых нет
Конфиденциальность — отправлять внутренние документы в OpenAI для fine-tuning?
RAG решил все проблемы
Обновил документ = бот уже знает — без переобучения
Прозрачность — бот показывает источник: "согласно Положению о ДМС, раздел 4..."
Данные внутри периметра — эмбеддинги можно считать локально
Контроль — легко добавить/удалить документы из базы знаний
Типичные вопросы к боту
"Сколько дней отпуска у меня по ТК?" → Ответ + ссылка на Положение об отпусках "Как согласовать командировку?" → Пошаговая инструкция + ссылка на регламент "Что покрывает ДМС?" → Перечень услуг + ссылка ��а договор
Когда что выбирать
КритерийRAGFine-tuningДокументы обновляются✅❌Нужны ссылки на источник✅❌Конфиденциальные данные✅⚠️Специфичный тон ответов➖✅Быстрый MVP➖✅
Мой вывод
Для корпоративной базы знаний — однозначно RAG.
Fine-tuning оправдан, если:
База знаний статична (редко меняется)
Не нужны ссылки на источники
Важен уникальный стиль общения бота
А как вы решаете задачу корпоративного бота? RAG, fine-tuning, или готовые решения типа Notion AI?
