Alian378530 июл 2025 в 08:00

Битрикс24 бенчмарк для оценки LLM

Средний

32 мин

6.2K

1С-Битрикс * Искусственный интеллектИсследования и прогнозы в IT * CRM-системы *

Аналитика

Комментарии 6

astenix 30 июл 2025 в 09:55

Верните глупую КДПВ с «Битрик», пожалуйста!

Alian3785 30 июл 2025 в 10:09

Готово, не разобрался сначала что она видна только в ленте, а не в статье

astenix 30 июл 2025 в 14:06

Шикардос, спасибо!

serg-vostrikov 30 июл 2025 в 11:15

Интересная статья и тема интересная, спасибо за проделанную работу! Вопрос - а как ты оценивал верность полученных ответов? Есть ли какая-то автоматизация, которая позволила бы прогнать такой тест по разным моделям? Мы сейчас лежим в сторону того, как помочь моделям не тупить с нашим REST и нашими инструментами типа SDK/Ui Kit и кажется, что такие тесты можно было использовать в качестве метрики успеха улучшений.

Alian3785 30 июл 2025 в 11:45

Спасибо! Модели действительно тупят на новых инструментах и библиотеках. К сожалению нет особой автоматизации. Верность оценивалась очень ручным способом. Модель выдаёт код и пишет куда его поместить. Я вручную копирую его его туда, запускаю и смотрю есть ли желаемый результат (появился ли лид, сформирован ли грид, если нет то какая ошибка и.т.д.), а если в ответе много папок и файлов прошу модель написать отдельный код для создания структуры папок. Чаты по последним 100 вопросам даже сохранились, но я решил не выкладывать их в статью так как не очень удобно

Может GPT-5 сможет получив вопросы написать тесты для автопроверки не самых сложных из них. Но так чтобы сразу несколько моделей проверить это уже надо подлючатся по api, платить за токены и автоматически проверять, до этого руки не дошли

serg-vostrikov 1 авг 2025 в 09:37

Ручная проверка - это, конечно, слишком трудоёмко. Особенно, если думать в сторону увеличения количества кейсов в тесте. Мда-с

Зарегистрируйтесь на Хабре, чтобы оставить комментарий