
В недавней публикации мы представили Tau² — инструмент для оценки больших языковых моделей. Сегодня же хотим поделиться неожиданным открытием: простое переписывание промпта увеличило успешность небольшой модели более чем на 20%. Ниже — подробный разбор того, как мы нашли и устранили узкое место в её работе, внеся всего несколько тонких изменений в политику агентов.
Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и начать работать с нейросетями прямо сейчас.
LLM-тесты с помощью Tau²
В недавнем летнем обновлении OpenAI стало очевидно, что GPT 5 значительно продвинулся в решении агентных задач. Чтобы проверить эти заявления, использовали именно Tau², ведь он имитирует реальные сценарии взаимодействия с агентами в таких сферах, как телеком, розничная торговля и авиаперевозки.
Наиболее ощутимый скачок ChatGPT 5 показал в направлении телеком.

В агентных взаимодействиях точность не предмет спора, но не менее важна и скорость работы модели: от этого напрямую зависит пользовательский опыт. Именно поэтому логично присмотреться к альтернативам флагманских решений, например к недавно выпущенной ChatGPT 5 mini.
У неё масса преимуществ: она почти вдвое быстрее по задержке, заметно эффективнее по пропускной способности, выдаёт 85–95% качества от старшей GPT 5 и при этом стоит в пять раз дешевле.
Поэтому мы поставили себе цель проверить две вещи: во‑первых, насколько GPT 5 mini справится с этим бенчмарком; а во‑вторых, можно ли улучшить результаты, слегка подправив саму постановку задач — например, переписав политики агентов или описания заданий.
Базовый уровень

Для начала мы решили зафиксировать исходный показатель качества GPT 5 mini. Так как полный телеком‑бенчмарк насчитывает свыше сотни тестов, мы ограничились его компактной версией — telecom_small, где всего 20 сценариев.
Запуск выглядел так:
tau2 run \ --domain telecom \ --agent-llm gpt-5-mini \ --user-llm gpt-5-mini \ --num-trials 2 --task-set-name telecom_small
Результаты оказались следующими:

Всего вышло 40 симуляций:

Начальный успех оказался низким — лишь 55%. С ограниченными возможностями рассуждений GPT 5 mini даже близко не дотянула до флагманской версии.
Интересную метрику ввёл этот бенчмарк — pass^k: он показывает, насколько хорошо агент справляется, если дать ему повторно одну и ту же задачу k раз. По сути, это показатель надёжности AI‑агента.
Взлом системы: как Claude переписал промпты для GPT 5 mini
Экспериментируя с GPT 5 mini, мы пытались ответить на три вопроса:
Можно ли повысить общий процент успешных решений у этой ограниченной модели?
Удастся ли «разблокировать» больше задач, с которыми она раньше не справлялась?
Улучшится ли её надёжность?
Прелесть генеративного ИИ в том, что он позволяет часть тяжёлой работы переложить на плечи других моделей. Поэтому мы обратились к Claude: попросили его проанализировать политики агентов в домене телеком, которые лежат в основе промпта, и переписать их с оглядкой на то, что этот текст будет использоваться не флагманской, а более быстрой, облегчённой LLM. Получившиеся документы (main_policy.md, tech_support_manual.md) должны были стать проще для восприятия и, как следствие, улучшить поведение агента.
Вот краткий «экзекьютив‑саммари» улучшений:
Я создал две оптимизированные ИИ версии документации по телеком-домену: Ключевые улучшения: 1. Структура и логика - Деревья решений: чёткое ветвление, с обозначениями ├── и └──. - Последовательные шаги: пронумерованные процедуры вместо разрозненных пояснений. - Предварительные условия: явная проверка зависимостей перед началом работы. 2. Оптимизация для ИИ-агента - Ясность вызова инструментов: точные названия функций и параметры. - Бинарные решения: чёткие «да/нет»-условия вместо расплывчатых формулировок. - Обработка ошибок: конкретные сценарии сбоев и дальнейшие шаги. - Этапы проверки: перепроверочные инструкции после каждого исправления. 3. Снижение когнитивной нагрузки - Справочные таблицы: быстрый доступ к инструментам и их назначению. - Узнавание шаблонов: типовые комбинации проблем и их решения. - Критические напоминания: раздел о частых ошибках ИИ для их предотвращения. 4. Прикладной язык - Удалены пространные объяснения, смешанные с инструкциями. - Логика нескольких документов объединена в единые рабочие процессы. - Использованы повелительные конструкции: «Проверь X», «Если Y, то Z». - Добавлены шаги немедленной проверки.
Оригинал
I've created two AI-optimized versions of the telecom domain documentation: Key Improvements Made: 1. Structure & Flow - Decision Trees: Clear branching logic with ├── and └── notation - Sequential Steps: Numbered, ordered procedures instead of scattered explanations - Prerequisites: Explicit dependency checks before proceeding 2. AI Agent Optimizations - Tool Call Clarity: Exact function names and parameters - Binary Decisions: Clear yes/no conditions instead of ambiguous language - Error Handling: Specific failure conditions and next steps - Verification Steps: "Recheck" instructions after each fix 3. Cognitive Load Reduction - Reference Tables: Quick lookup for tools and purposes - Pattern Recognition: Common issue combinations and their solutions - Critical Reminders: Common AI mistakes section to prevent errors 4. Actionable Language - Removed verbose explanations mixed with instructions - Consolidated multiple documents' logic into single workflows - Used imperative commands: "Check X", "If Y then Z" - Added immediate verification steps
Мы ушли от длинных деклараций политик к ясным, директивным указаниям. Вместо многословных описаний теперь используются пошаговая логика, условия и шаблоны. Для промптов это работает скорее как чек‑лист: «Проверь X → Если Y, то Z», а не как размытые описательные инструкции.
Результат: рост точности на 22% и вдвое меньше невыполнимых задач
Посмотрим, что получилось после обновления:

Новые промпты дали мощный прирост. Метрика pass^k заметно подросла:
При k = 1: с 0,55 до 0,675 (+22,73%) → проще говоря, GPT 5 mini теперь справляется с 67,5% задач вместо 55%.
При k = 2: с 0,4 до 0,5 (+25%) → значит, повторные попытки тоже стали продуктивнее.
Для сравнения: флагманский GPT 5 набирает около 97% на этом бенчмарке, o3 — 58%, а GPT 4.1 всего 34%. После оптимизации промптов GPT 5 mini не только поднялась выше своей базы, но и обогнала o3, приблизившись к старшей модели.
Построчное сравнение показывает, где именно мы добились прироста. Слева — стандартные результаты агента, справа — версия, оптимизированная именно под нашу модель GPT 5 mini.

Скриншот наглядно демонстрирует: благодаря обновлённым промптам и политикам мы «разблокировали» часть тестов, которые раньше модель проваливала. Теперь осталось всего три задачи, которые агент не смог выполнить ни в одной из двух попыток, — против шести ранее.
Что это значит для ваших моделей
Этот опыт показал: вдумчивый дизайн промптов способен серьёзно улучшить работу небольших моделей вроде GPT 5 mini. Переписав политики в виде чётких пошаговых инструкций, мы не только повысили процент успешных решений, но и «открыли» задачи, которые раньше казались для модели безнадёжными.
Главный секрет был в упрощении языка, устранении двусмысленностей и разбиении рассуждений на понятные, применимые шаги. Небольшие модели плохо разбирают пространные или расплывчатые инструкции, но прекрасно работают, когда им дают структурированные схемы, бинарные решения и лёгкие проверки на каждом этапе.
Вывод очевиден: использование флагманской модели для автоматической оптимизации промптов открывает путь к серьёзным улучшениям в работе облегчённых LLM. При грамотной настройке они способны давать достойный результат за малую долю стоимости — и это делает их особенно привлекательными там, где важны не только точность, но и скорость с доступностью.
Если эта работа оказалась вам полезной — дайте знать. Искусство инженерии промптов всё ещё открыто для экспериментов, и нам крайне любопытно, какие ещё творческие подходы будут искать другие.
Пока версталась статья
После публикации этой статьи и выхода её на главную HN читатели проявили интерес к тому, чтобы увидеть реальные версии политик «до» и «после» (именно они служат строительным материалом для промпта агента). Сначала мне казалось, что они будут слишком громоздкими для статьи и никому не захочется вникать, но раз уж появился интерес — делюсь ими в этом пулл‑реквесте.
