Как выбрать лучшую LLM модель для задачи за 15 минут
Сразу определим, что лучшая модель это не GPT-4 и не Claude, а та которая решает вашу конкретную задачу за минимальные деньги.
За последнюю неделю несколько раз встречался с одним и тем же вопросом: какую модель выбрать для проекта. Для RAG системы, для мультиагентной системы, для классификации обращений... Кстати часто с условием, что развернуть нужно будет локально.
Решил поделиться простым способом как выбрать подходящую модель быстро и с конкретными метриками.
В этом примере выбираем LLM модель для использования в ИИ-агенте с RAG. У вас же может быть любая другая задача:
Вот как это сделать за 15 минут вместо часов тестов.
Шаг 1. Подготовьте бенчмарк. Это просто набор вопросов и правильных ответов по вашей специфике. По сути это табличка: в одной колонке что спрашивает пользователь, в другой какой ответ должен быть. Если своего нет, можете взять мой универсальный бенчмарк, ссылку оставлю ниже.
Шаг 2. Зайдите на сайт LangSmith и зарегистрируйтесь там. Это бесплатно.
Шаг 3. Перейдите в раздел Datasets (датасеты) в меню слева.
Шаг 4. Загрузите свой датасет, это та самая табличка с вопросами и ответами. Нажмите кнопку New Dataset, выберите файл, всё.
Шаг 5. Нажмите кнопку experiment и выберите Playground. Там добавьте все модели которые хотите сравнить. Я беру API OpenRouter, там все нужные модели есть в одном месте, не надо регистрироваться в десяти разных сервисах.
Шаг 6. Нажмите кнопку Start (запустить) и подождите минуту две. Система сама прогонит все ваши вопросы через все модели.
Шаг 7. Посмотрите результаты. Увидите таблицу: какая модель сколько правильных ответов дала, как быстро отвечает, сколько стоит. Выбираете лучшую на ваш взгляд и готово.
Весь эксперимент займет минут 15-20 чтобы понять какую модель использовать в продакшене, сколько это будет стоить, и какие косяки могут быть.
Без этого пришлось бы тестировать вручную, слить денег на API разных моделей, и в итоге все равно выбрать наугад.
Если выбираете модель для проекта, не ленитесь сделать бенчмарк. Берите свои реальные примеры, прогоняйте через несколько моделей, смотрите на цифры. Это экономит деньги, время, нервы и избавляет от будущих проблем когда внезапно окажется что ваша модель плохо справляется или жрет бюджет.
Все файлы для эксперимента https://disk.yandex.ru/d/U_je7alkJxivZw
ТГ канал
