Как ИИ создавал клоны «Сапера»: тест четырех моделей и неожиданные результаты / Хабр

Недавно команда специалистов по ИИ провела эксперимент: нескольким ИИ-сервисам для программирования предложили с нуля создать веб-версию классической игры «Сапер». Помимо базовой логики, в задании были дополнительные требования — звуковые эффекты, поддержка сенсорных экранов и нестандартные игровые элементы. На практике такой формат быстро выявил различия в возможностях сервисов: одни справились с задачей уверенно, другие неожиданно споткнулись на, казалось бы, простых вещах. В этом материале разберем, как OpenAI Codex, Anthropic Claude Code, Mistral Vibe и Google Gemini CLI подошли к заданию и что их результаты говорят о текущем уровне ИИ в разработке.

Зачем ИИ заставлять писать «Сапер»?

Классический «Сапер» выглядит простой игрой: нужно открывать клетки, не натыкаясь на мины, и по цифрам вокруг высчитывать их расположение. Но с точки зрения разработки все не так очевидно. Помимо базовой логики, здесь есть интерфейс, реакции на разные действия пользователя, анимации и звук. Именно поэтому «Сапер» удобно использовать как практическое испытание для ИИ-сервисов, которые позиционируются как помощники программистов.

Здесь есть интересный нюанс — ИИ не давали возможности дорабатывать код после первой попытки, что сделало условия максимально приближенными к реальной разработке, где время и ресурсы часто ограничены.

В ходе эксперимента ИИ работали в привычном для разработчиков режиме — через командную строку, напрямую создавая и редактируя HTML-файлы и скрипты на локальной машине. Процесс координировала отдельная модель, которая распределяла задачи между параллельно работающими сервисами.

Этот эксперимент хорошо ложится в общий разговор о том, как ИИ используют в программировании. Такие сервисы давно помогают писать и править код, но остается вопрос, насколько им можно доверять решение более сложных задач. Тест с «Сапером» позволяет оценить все это на конкретном примере, с понятными требованиями и наглядным результатом.

OpenAI Codex: лидер с приятными бонусами

OpenAI Codex, основанный на GPT-5, показал себя лучше всех в этом испытании. Его версия «Сапера» не только полностью работала, но и получила несколько функций, которые выделили ее на фоне конкурентов. Во-первых, Codex добавил возможность «чординга» — механику, позволяющую опытным игрокам открывать сразу несколько клеток, если все мины вокруг них помечены флагами. Это не было обязательным требованием, но именно такие детали делают игру ближе к оригиналу.

Интерфейс версии от Codex получился аккуратным и понятным. В игре есть знакомая по классическому «Саперу» кнопка со смайликом, простые звуковые эффекты и возможность их отключить. В качестве дополнительного элемента Codex добавил кнопку Lucky Sweep, которая открывает безопасную клетку. Идея выглядит полезной, но на практике этот бонус часто срабатывал уже тогда, когда исход партии был практически решен.

На выполнение задания Codex потратил около 10–15 минут — больше, чем конкуренты. При этом результат оказался хорошим: игра корректно работала на сенсорных экранах, а сгенерированный код выглядел достаточно понятным и структурированным, чтобы его можно было без проблем дорабатывать вручную. Любопытный нюанс: при разработке самого Codex OpenAI также использует собственные ИИ-модели — в том числе для написания и правки кода, рассматривая их как рабочий инструмент внутри команды.

Особого удивления успех Codex не вызывает. Дело в том, что сервис уверенно справляется с ситуациями, которые выходят за рамки прямого задания, и корректно учитывает логику взаимодействия с пользователем. Правда, у модели остаются и ограничения: более медленная работа и высокая вычислительная стоимость могут быть заметным минусом при использовании в крупных проектах.

ML Impact — про ML и AI без хайпа

Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.

Подробнее →

Claude Code: быстро, красиво, но без «чординга»

Anthropic Claude Code занял второе место, но в некоторых аспектах оказался близок к лидеру. Его главным преимуществом стала скорость: полноценная версия «Сапера» была готова менее чем за пять минут. Интерфейс терминала Claude оказался самым удобным среди всех участников, с анимациями, показывающими прогресс работы, и четким управлением доступом к локальным файлам.

«Сапер» от Claude Code — ~~модный и молодежный~~ стильный и современный. Визуальная часть получила приятные детали. Например, смайлик краснел при проигрыше. Казалось бы, это мелочь, но она добавляет игре эмоциональности. Звуковые эффекты были на уровне, а поддержка сенсорных экранов работала без нареканий.

В то же время, Claude Code упустил важную деталь — механику «чординга». Для опытных игроков это серьезный минус, так как она делает игру более глубокой и стратегической. Без нее «Сапер» теряет часть своего шарма, особенно для тех, кто привык к оригинальной версии. Тем не менее, тестировщики поставили Claude Code 7 из 10, отметив, что с небольшими доработками игра могла бы соперничать с лидером.

Такой результат хорошо укладывается в общий стиль Claude Code. Anthropic традиционно делает упор на предсказуемость и аккуратное поведение ИИ, и это заметно даже в подобных тестах. В отличие от Codex, который иногда уходит в избыточную креативность, Claude чаще выбирает более консервативные решения. Это делает его удобным инструментом там, где важна стабильность и контроль. А вот если вы решите поручить ему задание, требующее нестандартных идей или «веселых» элементов, то можете разочароваться из-за, скажем так, чрезмерной консервативности и осторожности модели. Это не минус, просто имейте в виду.

Mistral Vibe: середнячок с потенциалом

Mistral Vibe, менее известный участник теста, показал себя крепким середнячком не без проблем. Его версия «Сапера» работала, выглядела приемлемо и включала необходимую базовую функциональность. Однако на фоне конкурентов она выглядела бледно. Время разработки составило около 15–20 минут, что медленнее Claude, но сравнимо с Codex.

У версии от Mistral Vibe возникли проблемы уже на уровне требований. В игре отсутствовали и «чординг», и звуковые эффекты, хотя они прямо указывались в задании. Вместо этого появилась кнопка Custom, которая не делала ничего. Интерфейс в целом выглядел неаккуратно: в режиме Expert сетка отображалась с ошибками и выходила за границы экрана. На мобильных устройствах управление тоже работало плохо — попытка поставить флаг через долгое нажатие часто приводила к появлению контекстного меню браузера.

В итоге Mistral Vibe получил оценку 4 из 10. Несмотря на ошибки, игра оставалась работоспособной, а сгенерированный код был достаточно простым и понятным для дальнейшей доработки. В целом, при скромных ресурсах Mistral способен выдавать практичный результат, пусть и с заметными ограничениями.

Стоит отметить, что Mistral делает ставку на ~~темную сторону~~ вайб-кодинг: разработчик формулирует задачу в общих чертах, а детали реализации ИИ берет на себя. В рамках теста такой подход сыграл не в его пользу — сервису не хватило точности в понимании требований.

Google Gemini CLI: провал, которого не ждали

Google Gemini CLI стал главным разочарованием эксперимента. Учитывая репутацию Google в области ИИ и недавние успехи модели Gemini 3, ожидания были высокими. Однако результат оказался плачевным: игра просто не работала. Вместо поля с клетками пользователи видели только несколько кнопок, и это все.

Проблемы начались еще на этапе разработки. Gemini CLI потребовалось около часа на создание кода. При этом ИИ постоянно запрашивал внешние зависимости, а в одном из тестов даже не смог использовать HTML5, несмотря на явные инструкции. Правда, Gemini CLI работал на версии Gemini 2.5, а не на новейшей Gemini 3. Это, конечно, могло повлиять на результат, но как бы то ни было, мы имеем то, что имеем.

Провал Gemini CLI в этом тесте вряд ли можно считать случайным. Ранее уже появлялись сообщения о том, что система допускает серьезные ошибки и не всегда контролирует результат своих дейст��ий. В случае с «Сапером» проблема была простой и наглядной: сервис не проверил, работает ли сгенерированная игра вообще. Это показывает, что даже для продвинутых ИИ базовая проверка собственных результатов остается слабым местом.

Неудача Google в этом тесте стала неожиданностью еще и потому, что компания активно продвигает свои ИИ-инструменты для разработчиков. Например, Gemini Code Assist предлагает интеграцию с экосистемой Google Cloud и большие контекстные окна для работы с крупными проектами. Но, как видим, даже мощные модели могут провалиться на простых задачах, если их не дорабатывать и не тестировать.

Что в итоге

Эксперимент с «Сапером» наглядно показал текущее положение дел: ИИ уже способен ускорять разработку и помогать на ранних этапах, но без постоянного контроля со стороны человека пока не работает надежно. В простых и четко заданных задачах он ведет себя предсказуемо, однако при усложнении требований быстро проявляются ошибки, которые приходится исправлять вручную. Полноценной заменой разработчика такие инструменты в обозримом будущем, скорее всего, не станут — по крайней мере, в практической работе.

Как ИИ создавал клоны «Сапера»: тест четырех моделей и неожиданные результаты