Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 6

Верните глупую КДПВ с «Битрик», пожалуйста!

Готово, не разобрался сначала что она видна только в ленте, а не в статье

Шикардос, спасибо!

Интересная статья и тема интересная, спасибо за проделанную работу! Вопрос - а как ты оценивал верность полученных ответов? Есть ли какая-то автоматизация, которая позволила бы прогнать такой тест по разным моделям? Мы сейчас лежим в сторону того, как помочь моделям не тупить с нашим REST и нашими инструментами типа SDK/Ui Kit и кажется, что такие тесты можно было использовать в качестве метрики успеха улучшений.

Спасибо! Модели действительно тупят на новых инструментах и библиотеках. К сожалению нет особой автоматизации. Верность оценивалась очень ручным способом. Модель выдаёт код и пишет куда его поместить. Я вручную копирую его его туда, запускаю и смотрю есть ли желаемый результат (появился ли лид, сформирован ли грид, если нет то какая ошибка и.т.д.), а если в ответе много папок и файлов прошу модель написать отдельный код для создания структуры папок. Чаты по последним 100 вопросам даже сохранились, но я решил не выкладывать их в статью так как не очень удобно

Может GPT-5 сможет получив вопросы написать тесты для автопроверки не самых сложных из них. Но так чтобы сразу несколько моделей проверить это уже надо подлючатся по api, платить за токены и автоматически проверять, до этого руки не дошли

Ручная проверка - это, конечно, слишком трудоёмко. Особенно, если думать в сторону увеличения количества кейсов в тесте. Мда-с

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации