Комментарии 6
Верните глупую КДПВ с «Битрик», пожалуйста!
Интересная статья и тема интересная, спасибо за проделанную работу! Вопрос - а как ты оценивал верность полученных ответов? Есть ли какая-то автоматизация, которая позволила бы прогнать такой тест по разным моделям? Мы сейчас лежим в сторону того, как помочь моделям не тупить с нашим REST и нашими инструментами типа SDK/Ui Kit и кажется, что такие тесты можно было использовать в качестве метрики успеха улучшений.
Спасибо! Модели действительно тупят на новых инструментах и библиотеках. К сожалению нет особой автоматизации. Верность оценивалась очень ручным способом. Модель выдаёт код и пишет куда его поместить. Я вручную копирую его его туда, запускаю и смотрю есть ли желаемый результат (появился ли лид, сформирован ли грид, если нет то какая ошибка и.т.д.), а если в ответе много папок и файлов прошу модель написать отдельный код для создания структуры папок. Чаты по последним 100 вопросам даже сохранились, но я решил не выкладывать их в статью так как не очень удобно
Может GPT-5 сможет получив вопросы написать тесты для автопроверки не самых сложных из них. Но так чтобы сразу несколько моделей проверить это уже надо подлючатся по api, платить за токены и автоматически проверять, до этого руки не дошли
Битрикс24 бенчмарк для оценки LLM