Comments 1
Вопрос:
"""полезно честно ответить: вы хотите показать высокий балл на бенчмарке или сделать так, чтобы агент реже проваливался в важных сценариях?"""
Ответ:
"""Главная мысль здесь простая: надежность агента растет не от большого количества синтетических тестов. Она растет от плотного контакта с реальными ошибками, быстрых воспроизведений и небольшого набора проверок, которые защищают критические пути."""
Смысл статьи в трех словах: "Выбирайте адекватные тесты". Как оригинально!
Вопросы: "Зачем нужен остальной текст?". "Кто сгенерил сей труд? LLM?"
Sign up to leave a comment.
Как оценивать ИИ‑агентов в проде: нижняя планка, трассы и кодовые проверки