Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
И хоть бы слово написали про то, как интерпретируются ответы БЯМ. Вот дали ей задачку, она выдала абзац текста, а дальше что? Точное сравнение строк? Для закрытых тестов пойдёт, но это малая часть. Регулярками выискивать нужные фразы? Скармливать другой БЯМ для валидации? Вычитывать человеку? Было бы очень интересно увидеть именно эти методики, чтобы понять, насколько бенчмарки действительно что-то проверяют?
Как устроен бенчмарк LLM? Знакомство с оценкой моделей