Pull to refresh

Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей 💫

Ссылка на статью, там подробнее и с картинками

Суть эксперимента

Дал одинаковое задание ChatGPT и Claude: создать интерактивную игру с кодом и интерфейсом. Задача комплексная — нужно и код написать, и текст придумать, и интерфейс сделать

Наши испытуемые

  • ChatGPT: 4.1, o3, Codex-1

  • Claude: Sonnet 3.7, Sonnet 4, Opus 4

💬 Исходный промпт для всех моделей выбрал такой
Каждая модель ИИ получила идентичное задание

Давай сделаем игру на основе этого промпта

Придумай 10 заранее заготовленных Change (сам придумай) - и в формате истории рассказываешь что бы произошло

I want to simulate a new reality by altering a single variable. I'll give you the change, and you'll break down the cascade of consequences — starting from the most fundamental shift down to specific, real-world effects — so I can trace the full chain of cause and reaction. Let's begin with: [change]

Напиши код с интерфейсом

Да, промпт без всяких изысков и правил написания правильного промпта. Без указания ролей, структуры и тому подобного. Специально, что бы не фреймить модели на слишком точную задачу

Результаты по моделям ⤵️

ChatGPT семейство 💫

GPT o3 — 80 строк, 6KB Самый компактный код, но с серьезными косяками: текст размазан по экрану, нет viewport для мобилок, поверхностное выполнение основной задачи.

GPT 4.1 — 137 строк, 5KB
Наиболее сбалансированный результат среди ChatGPT. Есть viewport, чистый ES6+ код, корректная мобильная версия. Но отсутствуют медиазапросы и не подсвечивается выбранный вариант.

Codex-1 — 105 строк, 6KB Единственный из ChatGPT написал интерфейс на русском. Технически грамотно, но слабо раскрыл суть задачи — вместо каскада последствий дал простые описания в 2-3 предложения.

Claude семейство 💗

Sonnet 3.7 — 317 строк, 20KB Структурированный подход с выпадающими списками и кнопками выбора. Хорошо выполнил часть с "каскадом последствий". В 3.2 раза тяжелее ChatGPT решений, но функциональность это оправдывает

Sonnet 4 — 562 строки, 33KB Появились переходы между страницами с искусственными загрузками через setTimeout. Модель уже начала осознавать UX-принципы: время ожидания увеличивает вовлеченность

Opus 4 — 497 строк React, 26KB Полноценный React-компонент с JSX, анимациями и пошаговым интерфейсом. Opus реализовал не прототип, а интерактивный полноценный опыт, который можно хоть сейчас отправлять на прод

Главные выводы

ChatGPT: Vanilla JS, минимализм, работает и хорошо, файлы 5-6KB
Claude: Продуманная архитектура, UX-решения, выглядит вау, файлы 20-33KB

Разница в подходе и результате очень значительная — от HTML до React-приложений

Детальный разбор каждой модели, анализ кода, ссылки на GitHub, сравнение стоимости токенов, любопытные наблюдения о "личности" моделей и практические рекомендации для выбора — всё это в полной статье 👈

Там же найдете рабочие демо всех 6 результатов

Tags:
+4
Comments1

Articles