Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей 💫

Суть эксперимента
Дал одинаковое задание ChatGPT и Claude: создать интерактивную игру с кодом и интерфейсом. Задача комплексная — нужно и код написать, и текст придумать, и интерфейс сделать
Наши испытуемые
ChatGPT: 4.1, o3, Codex-1
Claude: Sonnet 3.7, Sonnet 4, Opus 4
💬 Исходный промпт для всех моделей выбрал такой
Каждая модель ИИ получила идентичное задание
Давай сделаем игру на основе этого промпта
Придумай 10 заранее заготовленных Change (сам придумай) - и в формате истории рассказываешь что бы произошло
I want to simulate a new reality by altering a single variable. I'll give you the change, and you'll break down the cascade of consequences — starting from the most fundamental shift down to specific, real-world effects — so I can trace the full chain of cause and reaction. Let's begin with: [change]
Напиши код с интерфейсом
Да, промпт без всяких изысков и правил написания правильного промпта. Без указания ролей, структуры и тому подобного. Специально, что бы не фреймить модели на слишком точную задачу
Результаты по моделям ⤵️
ChatGPT семейство 💫
GPT o3 — 80 строк, 6KB Самый компактный код, но с серьезными косяками: текст размазан по экрану, нет viewport для мобилок, поверхностное выполнение основной задачи.
GPT 4.1 — 137 строк, 5KB
Наиболее сбалансированный результат среди ChatGPT. Есть viewport, чистый ES6+ код, корректная мобильная версия. Но отсутствуют медиазапросы и не подсвечивается выбранный вариант.
Codex-1 — 105 строк, 6KB Единственный из ChatGPT написал интерфейс на русском. Технически грамотно, но слабо раскрыл суть задачи — вместо каскада последствий дал простые описания в 2-3 предложения.
Claude семейство 💗
Sonnet 3.7 — 317 строк, 20KB Структурированный подход с выпадающими списками и кнопками выбора. Хорошо выполнил часть с "каскадом последствий". В 3.2 раза тяжелее ChatGPT решений, но функциональность это оправдывает
Sonnet 4 — 562 строки, 33KB Появились переходы между страницами с искусственными загрузками через setTimeout. Модель уже начала осознавать UX-принципы: время ожидания увеличивает вовлеченность
Opus 4 — 497 строк React, 26KB Полноценный React-компонент с JSX, анимациями и пошаговым интерфейсом. Opus реализовал не прототип, а интерактивный полноценный опыт, который можно хоть сейчас отправлять на прод
Главные выводы
ChatGPT: Vanilla JS, минимализм, работает и хорошо, файлы 5-6KB
Claude: Продуманная архитектура, UX-решения, выглядит вау, файлы 20-33KB
Разница в подходе и результате очень значительная — от HTML до React-приложений
Детальный разбор каждой модели, анализ кода, ссылки на GitHub, сравнение стоимости токенов, любопытные наблюдения о "личности" моделей и практические рекомендации для выбора — всё это в полной статье 👈
Там же найдете рабочие демо всех 6 результатов