Search
Write a publication
Pull to refresh

Поведение разных моделей при вайбкодинге

Level of difficultyEasy
Reading time2 min
Views7.7K

Это стоит обсудить на фоне прошлого того, как Cursor попытался сделать хитрый финт, чтобы собрать кучу денег с подписчиков, но у него не получилось.
По сути, у нас не так-то много качественных вариантов.

Claude Opus 4 — это царь. Но самый дорогой. Есть вариант thinking.

  • Он умеет планировать, дебажить и работать над сложными задачами.

  • Ему лучше всего давать какую-то комплексную задачу или список задач.

  • Стоит сразу указать файлы и папки, с которыми ему предстоит работать + добавить нужное в контекст, хотя в целом он сам неплохо ищет — просто каждый поиск стоит денег.

  • Он доведёт список задач до самого конца, попытавшись максимально точно разложить задачу. Идеально — если у него ещё и таск-лист есть.

  • При этом он хорошо следует инструкции и редко добавляет отсебятину.

  • Контекст — до 200 тыс. токенов.

Claude Sonnet 4 — это рабочая лошадка. Недорого и всё ещё хорошо. Есть вариант thinking.

  • Он умеет работать над достаточно сложными задачами, неплохо дебажит, хотя иногда не может найти первопричину.

  • К нему применимы все те же советы, что и к Opus. Он также старается довести дело до конца. Просто немного поглупее. Однако это можно считать базовой моделью для любой разработки.

  • Также достаточно редко добавляет отсебятину. Любит тестировать результат и очень любит создавать отчёты-гайды.

  • Контекст — до 200 тыс. токенов.

GPT-o3 / o3 pro — снайпер. o3 — стал на уровне Sonnet по цене, а o3 pro — как Opus. Обе — только thinking.

  • Планирует плохо. Превосходно дебажит: если Claude не справляется и ходит кругами — o3 может помочь. Создаёт новые фичи неплохо, но чересчур лаконично.

  • Поставишь ему несколько задач — а он часто вместо того, чтобы выполнить их за 1 запрос, делает по 1 запросу на каждую. Это неудобно и дороже.

  • Когда не нужно, чтобы модель что-то додумывала — o3 подходит идеально. Она даже рассуждения свои не показывает, только отчёт в конце.

  • С её помощью всё ещё можно создавать что-то, хотя и менее эффективно. Она в среднем глупее Claude.

  • Контекст — до 200 тыс. токенов.

Gemini 2.5-pro — это стратег. По цене достаточно дешёвый. Только thinking.

  • Очень хорошо планирует — с ним можно обсуждать будущий функционал. Из-за того, что он графоманит, получается очень подробный план или классное многостроннее обсуждение. Он старается учесть всё. Но это и его недостаток.

  • Он плохо находит реальные баги и во многих местах пытается лишний раз перестраховаться.

  • При создании фичей постоянно додумывает и создаёт лишний код, который его не просили.

  • Считаю его не очень эффективной моделью для написания кода, но для планирования или анализа кодовой базы — очень хорош!

  • Контекст — до 1 млн токенов.

Grok-4 code — перспективный новичок. По цене как Sonnet. Thinking-модель.

  • Только-только появился, показал себя только чуть лучше остальных только в кодинге 2д/3д игры

  • В целом можно использовать как рабочую модель наравне с Sonnet, но на мой взгляд у него меньше системности.

Контекст - 256 тыс токенов.

Я не буду говорить про DeepSeek R1/v3.1, GPT-4.1, Codestral и других — они тоже неплохие, но даже до Gemini по качеству не дотягивают. Их можно использовать только в несложных задачах.

Ещё только-только вышла Kimi-2 - вроде бы и опен-сорс, и дешёвый, но пока вокруг него не так много сложенного опыта от коммьюнити.

А какой у вас опыт в этом?

--

Мой тг-канал по ии-стартапам и вайб-коду

Tags:
Hubs:
+1
Comments11

Articles