Обновить

Какая нейросеть лидирует в генерации кода сейчас? ChatGPT vs Gemini vs Claude

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели20K
Всего голосов 15: ↑12 и ↓3+10
Комментарии33

Комментарии 33

ChatGPT в каких то числах февраля сильно замедлился. Будто работает на железе прошлого века. Ну и press f, как говорится

Какая бы нейросеть не "лидировала", все они обучены на говнокоде и соответствующий результат выдают.

Очень смелое, конечно, заявление. Обучены они как бы на всем доступном в мире коде. А что в вам не понравилось в описанных результатах, собственно?

У меня небольшие пет-проекты :) Для JS использую Qwen + DeepSeek, сложные места потом закидываю в StepFun и прочие китайские сети второго эшелона для отлова необычных багов.
Раньше в основном использовал ChatGPT, но, кажется, в моменты большой нагрузки он сильно тупеет :)

с какого то момента все ИИ стали лениться делать свою работу.
например, если раньше я писал - "вот шаблон, вот данные сделай" - то мне давали полный результат который мне нужен. А сейчас при всех равных - ИИ всегда отвечает "вот первые три строки и последние три а остальное можно сделать на подобии". И даже если строк не много - все равно пропускает какие то..

Последний раз такое видел на GPT 3.5. Ты через телегу что ли сомнительными бесплатными ботами пользуешься?

Нет напрямую в интерфейсе gpt (тариф go) так же квен и дипсик

Все вышеперечисленные тесты бесполезны для определения лучшей модели, потому что модели на таком коде и обучались. Вы придумайте свои уникальные тесты, тогда хотя бы немного объективно будет. Например, ни одна из моделей не смогла мне сделать полноценную jigsaw puzzle, с элементами tetris вместо кусочков.

может проблема в формировании запроса?) клауд шейдеры генерирует РАБОЧИЕ что сложного в тетрисе?😀

поддерживаю, эти задачи модели известны, поэтому валидность тестов не очень высокая

Нет смысла рассматривать большие модели вне их оригинальных подписок и инструментов. Без подписок можно легко выжрать тысячи долларов а без инструментов ничего кроме кривого калькулятора не получится.

Claude с момента их появления на рынке никто особо не обгонял. Возможно другие модели хороши в чем-то ином, написание текстов и подобные вещи. Но Claude в кодинге выдаёт стабильно высокий результат.

По личным жпт работает заметно лучше Клауда где-то с декабря, а с кодекс 5.3 на мак приложении разрыв как будто ещё увеличился

5.4 выглядит ещё лучше пока что, но тут надо больше тестов

5.3 уже заменял пару мидлов

Сравните с Opus

Сравнивал последний раз в начале февраля последний опус (4.6) с последним кодексом (5.3) на тот момент

В моих кейсах кодекс решал задачи с первого раза, опус - нет

Сейчас кодексом 5.4 с нативным мак приложением полностью генерирую всю бизнес логику на всем стеке, опус 4.6 на тот момент такого не мог через Claude code / cowork, не думаю что он сильно поменялся с того времени, жду некст версию для тестов

Режим душн лы: люди конда-нибудь перестанут путать педали функционал и функциональность?

Поздно, это общеупотребимый жаргонизм, которому уже несколько десятков лет.

Причем в данном случае и ничего плохого по сути нет, ну подсократили длину слова, все равно никто не перепутает математический функционал и функционал программы, так же как нет проблем со словами функция, ротор и т. п.

Вот когда например путают аутентификацию и авторизацию -- да, смысл искажается.

Вывод только такой, что GPT строго следует поставленному ТЗ и не додумывает, как остальные две фантазёрки.

Их же не просили добавить ДИЗАЙНА в промте и ТЗ.

А GPT какой запрос получил, такой ответ и выдал. Вы правы!

Вот тоже о таком подумал. Нет, Claud хорош, конечно, особенно когда сам не знаешь чего хочешь, лишь бы красивенько и best practices. Но есть же и описание задачи. Там даже не было предложено модели вносить улучшения на свой вкус. За что тогда штрафовать?

опять bothub публикует глупости. Все в конечном итоге упирается не в качество, а в стоимость, а вы ее в этих тестах никак не учитываете

Тест одним промптом через API показывает генерацию с нуля. Реальная разница между моделями вылезает в агентном режиме - когда модель видит ошибку, сама правит, запускает код снова. Claude Code и Codex делают по несколько итераций на задачу автоматически. На калькуляторе это незаметно

Вот да, по мне так кодить через просто языковую модель в наше время это почти как писать код в Notepad. Одной генерацией же дело не ограничится к правило. Потребуется множество модификаций и просто с моделью это печально. Будет коверкать код, удалять уже готовое. Только агентские инструменты решают вопрос, их и надо рассматривать.

Вот мне сегодня Codex за несколько минут чарт для отображения фитнеса в одном стимуляторе эволюции сделал масштабируемым мышью с автопересчетом осей, сетки, инерцией. Никаких нареканий вообще. Сколько бы я с таким возился даже трудно сказать.

Создай десктопное приложение "Инженерный калькулятор" на Python с использованием библиотеки Tkinter.

Вот чего я не ожидал, так это увидеть Opus 4.6 на первом месте.

Блин, да сколько можно этих тетрисов. Такие тесты ровным счётом ничего не отражают. Попробуйте поработать с энтерпрайз приложением на миллион строк в разных задачах несколько месяцев. Все кого я знаю в таком опыте остановились пока на Sonet для быстрого решения и Opus для качественного. Эти модели дают самый стабильный результат.

Интересно было бы посмотреть на стоимость генерации каждой модели. И сравнить с на порядок более дешевыми глм5 и ещё на полпорядка дипсик)

Хорошо бы ещё видеть в таких обзорах qwen последний. Сравнение между закрытыми моделями - нормально, но интереснее увидеть какой есть разрыв (и есть ли он) с открытыми моделями.

Claude пользовался через cursor - не могу оценивать корректно, но в целом не плохо.

Gemini 3.1 через antigravity - пробовал разные задачи, мне не понравился, часто ошибается, делает лишнее или не доделывает, не смотря на точные спеки и строгие правила.

Последнее время использую GPT 5.3 codex и 5.4 - дают вменяемый результат, но не без присмотра все равно.

До режима "дал задание и пошёл спокойно пить кофе" всем ещё далеко, все равно нужно делать ревью, ручные тесты и тому подобное.

Что характерно, код не предоставили) Я попробовал в локальный квен кодер 3 next первое задание забросить и получился результат визуально точь-в-точь как у чата джипити. И с предоставленными примерами всё работает. А вот если попробовать найти косинус 0, то сыпятся ошибки. Поэтому без кода от всех нейросеток мы не можем проверить, что даже тот же клод считает без ошибок.

Сравнение в статье конечно не очень связано с разработкой, зато есть рекламодатель 🙂

(дали б хоть cli tools эти задачи, а не в чатике, я не говорю уже о подготовке доков, скиллов и тулов для агента)

Во всех таких статьях сравнивают всегда: хоть кого, кроме дипсик. Всегда вопрос почему.

Более 80% ответов на этот вопрос - становятся основанием считать такие статьи говномусором.

Почему Дипсик? Да потому, что им - пользуются. И пользуются не на Марсе или юэсэй, а тут, в РФ, конкретно, и не только.

Это я лично считаю объективным аргументом.

Но, для особо продвинутых могу сформулировать кулюторно. Если человек, кроме доступного дипсик ничего другого не юзал. То, с чем ему сравнивать? Как понять, что кленовый сироп прекрасен, если есть только мёд и березовый сок?)

Я не жалуюсь. Но, раз выходят такие статьи, и такие псевдо-теств, значит они нацелены на кого-то. И это явно не 0,01% всех пользователей ИИ.

В общем, очередная шляпа.

Вот такое мнение от непрограммиста.

Так да, как я написал выше, никто даже кода не предоставил. Дипсик сразу себе выписал, к примеру, что нужно обработать эдж кейсы а ля 0,1 + 0,2, которые из коробки коряво складываются. И мы не проверим правильно ли сделал Claude. И на скринах никто такого кейса не вводил.

А что на счет Cursor? Она не конкурент? Интересно, почему про неё слова не сказано

Но вы же пишете бред. Опус дороже чем гпт в 2 раза

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin