Tau² Benchmark: как переписывание промпта подняло точность GPT 5 mini на 22% / Хабр

В недавней публикации мы представили Tau² — инструмент для оценки больших языковых моделей. Сегодня же хотим поделиться неожиданным открытием: простое переписывание промпта увеличило успешность небольшой модели более чем на 20%. Ниже — подробный разбор того, как мы нашли и устранили узкое место в её работе, внеся всего несколько тонких изменений в политику агентов.

Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и начать работать с нейросетями прямо сейчас.

LLM-тесты с помощью Tau²

В недавнем летнем обновлении OpenAI стало очевидно, что GPT 5 значительно продвинулся в решении агентных задач. Чтобы проверить эти заявления, использовали именно Tau², ведь он имитирует реальные сценарии взаимодействия с агентами в таких сферах, как телеком, розничная торговля и авиаперевозки.

Наиболее ощутимый скачок ChatGPT 5 показал в направлении телеком.

В агентных взаимодействиях точность не предмет спора, но не менее важна и скорость работы модели: от этого напрямую зависит пользовательский опыт. Именно поэтому логично присмотреться к альтернативам флагманских решений, например к недавно выпущенной ChatGPT 5 mini.

У неё масса преимуществ: она почти вдвое быстрее по задержке, заметно эффективнее по пропускной способности, выдаёт 85–95% качества от старшей GPT 5 и при этом стоит в пять раз дешевле.

Поэтому мы поставили себе цель проверить две вещи: во‑первых, насколько GPT 5 mini справится с этим бенчмарком; а во‑вторых, можно ли улучшить результаты, слегка подправив саму постановку задач — например, переписав политики агентов или описания заданий.

Базовый уровень

Для начала мы решили зафиксировать исходный показатель качества GPT 5 mini. Так как полный телеком‑бенчмарк насчитывает свыше сотни тестов, мы ограничились его компактной версией — telecom_small, где всего 20 сценариев.

Запуск выглядел так:

tau2 run \
    --domain telecom \
    --agent-llm gpt-5-mini \
    --user-llm gpt-5-mini \
    --num-trials 2 --task-set-name telecom_small

Результаты оказались следующими:

Всего вышло 40 симуляций:

Начальный успех оказался низким — лишь 55%. С ограниченными возможностями рассуждений GPT 5 mini даже близко не дотянула до флагманской версии.

Интересную метрику ввёл этот бенчмарк — pass^k: он показывает, насколько хорошо агент справляется, если дать ему повторно одну и ту же задачу k раз. По сути, это показатель надёжности AI‑агента.

Взлом системы: как Claude переписал промпты для GPT 5 mini

Экспериментируя с GPT 5 mini, мы пытались ответить на три вопроса:

Можно ли повысить общий процент успешных решений у этой ограниченной модели?
Удастся ли «разблокировать» больше задач, с которыми она раньше не справлялась?
Улучшится ли её надёжность?

Прелесть генеративного ИИ в том, что он позволяет часть тяжёлой работы переложить на плечи других моделей. Поэтому мы обратились к Claude: попросили его проанализировать политики агентов в домене телеком, которые лежат в основе промпта, и переписать их с оглядкой на то, что этот текст будет использоваться не флагманской, а более быстрой, облегчённой LLM. Получившиеся документы (main_policy.md, tech_support_manual.md) должны были стать проще для восприятия и, как следствие, улучшить поведение агента.

Вот краткий «экзекьютив‑саммари» улучшений:

Я создал две оптимизированные ИИ версии документации по телеком-домену:

Ключевые улучшения:

1. Структура и логика
   - Деревья решений: чёткое ветвление, с обозначениями ├── и └──.
   - Последовательные шаги: пронумерованные процедуры вместо разрозненных пояснений.
   - Предварительные условия: явная проверка зависимостей перед началом работы.

2. Оптимизация для ИИ-агента
   - Ясность вызова инструментов: точные названия функций и параметры.
   - Бинарные решения: чёткие «да/нет»-условия вместо расплывчатых формулировок.
   - Обработка ошибок: конкретные сценарии сбоев и дальнейшие шаги.
   - Этапы проверки: перепроверочные инструкции после каждого исправления.

3. Снижение когнитивной нагрузки
   - Справочные таблицы: быстрый доступ к инструментам и их назначению.
   - Узнавание шаблонов: типовые комбинации проблем и их решения.
   - Критические напоминания: раздел о частых ошибках ИИ для их предотвращения.

4. Прикладной язык
   - Удалены пространные объяснения, смешанные с инструкциями.
   - Логика нескольких документов объединена в единые рабочие процессы.
   - Использованы повелительные конструкции: «Проверь X», «Если Y, то Z».
   - Добавлены шаги немедленной проверки.

Оригинал

I've created two AI-optimized versions of the telecom domain documentation:

Key Improvements Made:

1. Structure & Flow
   - Decision Trees: Clear branching logic with ├── and └── notation
   - Sequential Steps: Numbered, ordered procedures instead of scattered explanations
   - Prerequisites: Explicit dependency checks before proceeding

2. AI Agent Optimizations
   - Tool Call Clarity: Exact function names and parameters
   - Binary Decisions: Clear yes/no conditions instead of ambiguous language
   - Error Handling: Specific failure conditions and next steps
   - Verification Steps: "Recheck" instructions after each fix

3. Cognitive Load Reduction
   - Reference Tables: Quick lookup for tools and purposes
   - Pattern Recognition: Common issue combinations and their solutions
   - Critical Reminders: Common AI mistakes section to prevent errors

4. Actionable Language
   - Removed verbose explanations mixed with instructions
   - Consolidated multiple documents' logic into single workflows
   - Used imperative commands: "Check X", "If Y then Z"
   - Added immediate verification steps

Мы ушли от длинных деклараций политик к ясным, директивным указаниям. Вместо многословных описаний теперь используются пошаговая логика, условия и шаблоны. Для промптов это работает скорее как чек‑лист: «Проверь X → Если Y, то Z», а не как размытые описательные инструкции.

Результат: рост точности на 22% и вдвое меньше невыполнимых задач

Посмотрим, что получилось после обновления:

Результаты симуляции: метрики агента с наградами, коэффициентами pass и стоимостью диалога

Новые промпты дали мощный прирост. Метрика pass^k заметно подросла:

При k = 1: с 0,55 до 0,675 (+22,73%) → проще говоря, GPT 5 mini теперь справляется с 67,5% задач вместо 55%.
При k = 2: с 0,4 до 0,5 (+25%) → значит, повторные попытки тоже стали продуктивнее.

Для сравнения: флагманский GPT 5 набирает около 97% на этом бенчмарке, o3 — 58%, а GPT 4.1 всего 34%. После оптимизации промптов GPT 5 mini не только поднялась выше своей базы, но и обогнала o3, приблизившись к старшей модели.

Построчное сравнение показывает, где именно мы добились прироста. Слева — стандартные результаты агента, справа — версия, оптимизированная именно под нашу модель GPT 5 mini.

Сравнительные журналы консоли: стандартные результаты агента GPT 5 mini против улучшенных

Скриншот наглядно демонстрирует: благодаря обновлённым промптам и политикам мы «разблокировали» часть тестов, которые раньше модель проваливала. Теперь осталось всего три задачи, которые агент не смог выполнить ни в одной из двух попыток, — против шести ранее.

Что это значит для ваших моделей

Этот опыт показал: вдумчивый дизайн промптов способен серьёзно улучшить работу небольших моделей вроде GPT 5 mini. Переписав политики в виде чётких пошаговых инструкций, мы не только повысили процент успешных решений, но и «открыли» задачи, которые раньше казались для модели безнадёжными.

Главный секрет был в упрощении языка, устранении двусмысленностей и разбиении рассуждений на понятные, применимые шаги. Небольшие модели плохо разбирают пространные или расплывчатые инструкции, но прекрасно работают, когда им дают структурированные схемы, бинарные решения и лёгкие проверки на каждом этапе.

Вывод очевиден: использование флагманской модели для автоматической оптимизации промптов открывает путь к серьёзным улучшениям в работе облегчённых LLM. При грамотной настройке они способны давать достойный результат за малую долю стоимости — и это делает их особенно привлекательными там, где важны не только точность, но и скорость с доступностью.

Если эта работа оказалась вам полезной — дайте знать. Искусство инженерии промптов всё ещё открыто для экспериментов, и нам крайне любопытно, какие ещё творческие подходы будут искать другие.

Пока версталась статья
После публикации этой статьи и выхода её на главную HN читатели проявили интерес к тому, чтобы увидеть реальные версии политик «до» и «после» (именно они служат строительным материалом для промпта агента). Сначала мне казалось, что они будут слишком громоздкими для статьи и никому не захочется вникать, но раз уж появился интерес — делюсь ими в этом пулл‑реквесте.

Tau² Benchmark: как переписывание промпта подняло точность GPT 5 mini на 22%

LLM-тесты с помощью Tau²

Базовый уровень

Взлом системы: как Claude переписал промпты для GPT 5 mini

Результат: рост точности на 22% и вдвое меньше невыполнимых задач

Что это значит для ваших моделей

Публикации

Информация