Одна AI-голова — хорошо, а две — от разных вендоров лучше. Как заставить Claude и Codex спорить между собой / Хабр

Недавно OpenAI выпустил опенсорсный плагин, который даёт Claude Code структурированную интеграцию с Codex. Кроме того, всё работает прямо из VS Code через Claude Code Extension. По моему опыту даже в задачах, не связанных с кодом, две "AI-головы" дают результаты лучше, чем одна. У одиночного AI нет стимула оспаривать свои выводы, да и ограничен он своими условиями обучения. Но раньше взаимодействием двух AI было не очень комфортно управлять. С новым плагином стало удобнее, а с дополнительными скиллами для Claude Code еще удобнее. Ниже про скиллы, которые превращают AI-советчиков в структурированных оппонентов.

Пока я не разобрался как использовать плагин эффективно, получал такие диалоги:

- Я: При необходимости можешь вызвать Codex чтобы посоветоваться.
- Claude: Не буду звать Codex - у меня достаточно материала для уверенного решения.

В целом, понятно - задача сформулирована не как задача. А правильно было написать протоколы взаимодействия. Поэкспериментировав, получил три сценария, в которых дебаты дают ощутимый результат. Каждый стал отдельным skill для Claude Code. Все три скилла умеют сохранять видимый транскрипт дебатов - аргументы, критику, итоги и вывод - в лог-файл в формате Markdown, так что к результатам можно вернуться в любой момент.

/options-challenge - когда нужно выбрать из альтернатив. Вы стоите перед развилкой: какой фреймворк взять, как спроектировать API, какую стратегию выбрать. Claude формулирует 2–4 варианта с аргументами за каждый. Codex получает те же варианты и атакует каждый: в чём сила, в чём главный риск, что должно быть правдой, чтобы вариант сработал. Claude учитывает критику и выстраивает варианты от сильного к слабому. Codex дожимает два лучших - и у вас карта решения с явными трейдоффами.

Пример: на сайте нужно было добавить ссылки на LinkedIn, GitHub и Telegram, не превратив верхнюю панель в перегруженную смесь навигации и внешних ссылок. Claude предложил несколько вариантов: оставить соцсети в верхнем меню сайта, убрать в футер, спрятать в dropdown или вынести на About и в конец постов. Codex отсеял решения, которые плохо работают на мобильных или добавляют лишнюю сложность. В итоге осталась схема с чистым меню, соцссылками в футере и дополнительным блоком контактов там, где читатель действительно готов кликнуть.

/strategy-debate - когда нужно глубоко проанализировать. Обе модели независимо формулируют позицию по вопросу, затем в раундах перекрёстной критики атакуют слабые места друг друга и пересматривают свои аргументы. Формат пожёстче: каждая итерация требует конкретных контраргументов с обоснованием, а не общих фраз вроде «стоит также учесть». В конце выбранный вами финализатор (Codex или Claude) подводит итог. Работает для бизнес-стратегий, архитектурных решений, планирования проектов.

Пример: пост инвестора в LinkedIn - «I passed on 473 AI startups. None had actual moats» - утверждает, что большинство AI-стартапов остаются тонкими обёртками над API, и перечисляет четыре источника устойчивости. Я взял этот тезис как отправную точку: достаточно ли такого набора критериев, чтобы отделить временную надстройку от реального продукта? Claude и Codex предложили свои рамки анализа, а на этапе взаимной критики выяснили, что устойчивость нельзя описать одной линейной шкалой, потому что сила каждого барьера зависит от отрасли. В итоге спор вышел на практичный фреймворк: что именно в продукте останется ценным после следующего скачка качества базовых моделей.

/creator-critic - когда нужно придумать и отсеять лучшее. Одна модель (creator) генерирует 3–5 идей или подходов, другая (critic) разбирает каждый: в чём ценность, где главный изъян, какое скрытое допущение, как может провалиться. После этого creator пересматривает список, отбрасывает слабые варианты и сужает до 1–3 сильнейших. Результат - не «первый черновик», а отфильтрованная рекомендация.

Пример: допустим, команда выбирает название для нового внутреннего инструмента, который потом может стать внешним продуктом. Claude нагенерировал варианты, Codex отбраковал банальные, двусмысленные и плохо масштабируемые. В итоге остались 2–3 названия, которые не стыдно нести дальше.

Ключевой момент тут кросс-вендорность. Это не два экземпляра одной модели, которые делят одни и те же слепые зоны. Claude от Anthropic и Codex от OpenAI обучены на разных данных, разными командами, с разными приоритетами. Слепые зоны у них разные - и упорядоченный спор эти зоны вскрывает.

Дебаты не имеют смысла, если:

правильный ответ один.
ответ тривиальный. Дебаты приводят к расходу квоты обоих AI.
нужен быстрый ответ, т.к. дебаты могут занимать несколько минут.

Что нужно для запуска:

Claude Code
Codex CLI - npm install -g @openai/codex, затем codex login
Codex-плагин для Claude Code - устанавливается из Claude Code
Скиллы из репозитория - линкуются в ~/.claude/skills/

Репозиторий: github.com/biyachuev/claude-debate-skills

Если попробуете - расскажите, что получилось. Интересны кейсы, где дебаты дали неожиданный результат.

Про идеи, личный опыт и то, что работает, пишу тут:
Телеграм-канал: @tbiyachuev
MAX: max.ru/join/...