Pull to refresh

Comments 1

Вопрос:

"""полезно честно ответить: вы хотите показать высокий балл на бенчмарке или сделать так, чтобы агент реже проваливался в важных сценариях?"""

Ответ:

"""Главная мысль здесь простая: надежность агента растет не от большого количества синтетических тестов. Она растет от плотного контакта с реальными ошибками, быстрых воспроизведений и небольшого набора проверок, которые защищают критические пути."""

Смысл статьи в трех словах: "Выбирайте адекватные тесты". Как оригинально!

Вопросы: "Зачем нужен остальной текст?". "Кто сгенерил сей труд? LLM?"

Sign up to leave a comment.

Articles