Комментарии 33
ChatGPT в каких то числах февраля сильно замедлился. Будто работает на железе прошлого века. Ну и press f, как говорится
Какая бы нейросеть не "лидировала", все они обучены на говнокоде и соответствующий результат выдают.
У меня небольшие пет-проекты :) Для JS использую Qwen + DeepSeek, сложные места потом закидываю в StepFun и прочие китайские сети второго эшелона для отлова необычных багов.
Раньше в основном использовал ChatGPT, но, кажется, в моменты большой нагрузки он сильно тупеет :)
с какого то момента все ИИ стали лениться делать свою работу.
например, если раньше я писал - "вот шаблон, вот данные сделай" - то мне давали полный результат который мне нужен. А сейчас при всех равных - ИИ всегда отвечает "вот первые три строки и последние три а остальное можно сделать на подобии". И даже если строк не много - все равно пропускает какие то..
Все вышеперечисленные тесты бесполезны для определения лучшей модели, потому что модели на таком коде и обучались. Вы придумайте свои уникальные тесты, тогда хотя бы немного объективно будет. Например, ни одна из моделей не смогла мне сделать полноценную jigsaw puzzle, с элементами tetris вместо кусочков.
Нет смысла рассматривать большие модели вне их оригинальных подписок и инструментов. Без подписок можно легко выжрать тысячи долларов а без инструментов ничего кроме кривого калькулятора не получится.
Claude с момента их появления на рынке никто особо не обгонял. Возможно другие модели хороши в чем-то ином, написание текстов и подобные вещи. Но Claude в кодинге выдаёт стабильно высокий результат.
По личным жпт работает заметно лучше Клауда где-то с декабря, а с кодекс 5.3 на мак приложении разрыв как будто ещё увеличился
5.4 выглядит ещё лучше пока что, но тут надо больше тестов
5.3 уже заменял пару мидлов
Сравните с Opus
Сравнивал последний раз в начале февраля последний опус (4.6) с последним кодексом (5.3) на тот момент
В моих кейсах кодекс решал задачи с первого раза, опус - нет
Сейчас кодексом 5.4 с нативным мак приложением полностью генерирую всю бизнес логику на всем стеке, опус 4.6 на тот момент такого не мог через Claude code / cowork, не думаю что он сильно поменялся с того времени, жду некст версию для тестов
Режим душн лы: люди конда-нибудь перестанут путать педали функционал и функциональность?
Поздно, это общеупотребимый жаргонизм, которому уже несколько десятков лет.
Причем в данном случае и ничего плохого по сути нет, ну подсократили длину слова, все равно никто не перепутает математический функционал и функционал программы, так же как нет проблем со словами функция, ротор и т. п.
Вот когда например путают аутентификацию и авторизацию -- да, смысл искажается.
Вывод только такой, что GPT строго следует поставленному ТЗ и не додумывает, как остальные две фантазёрки.
Их же не просили добавить ДИЗАЙНА в промте и ТЗ.
А GPT какой запрос получил, такой ответ и выдал. Вы правы!
Вот тоже о таком подумал. Нет, Claud хорош, конечно, особенно когда сам не знаешь чего хочешь, лишь бы красивенько и best practices. Но есть же и описание задачи. Там даже не было предложено модели вносить улучшения на свой вкус. За что тогда штрафовать?
опять bothub публикует глупости. Все в конечном итоге упирается не в качество, а в стоимость, а вы ее в этих тестах никак не учитываете
Тест одним промптом через API показывает генерацию с нуля. Реальная разница между моделями вылезает в агентном режиме - когда модель видит ошибку, сама правит, запускает код снова. Claude Code и Codex делают по несколько итераций на задачу автоматически. На калькуляторе это незаметно
Вот да, по мне так кодить через просто языковую модель в наше время это почти как писать код в Notepad. Одной генерацией же дело не ограничится к правило. Потребуется множество модификаций и просто с моделью это печально. Будет коверкать код, удалять уже готовое. Только агентские инструменты решают вопрос, их и надо рассматривать.
Вот мне сегодня Codex за несколько минут чарт для отображения фитнеса в одном стимуляторе эволюции сделал масштабируемым мышью с автопересчетом осей, сетки, инерцией. Никаких нареканий вообще. Сколько бы я с таким возился даже трудно сказать.
Создай десктопное приложение "Инженерный калькулятор" на Python с использованием библиотеки Tkinter.
Вот чего я не ожидал, так это увидеть Opus 4.6 на первом месте.
Блин, да сколько можно этих тетрисов. Такие тесты ровным счётом ничего не отражают. Попробуйте поработать с энтерпрайз приложением на миллион строк в разных задачах несколько месяцев. Все кого я знаю в таком опыте остановились пока на Sonet для быстрого решения и Opus для качественного. Эти модели дают самый стабильный результат.
Интересно было бы посмотреть на стоимость генерации каждой модели. И сравнить с на порядок более дешевыми глм5 и ещё на полпорядка дипсик)
Хорошо бы ещё видеть в таких обзорах qwen последний. Сравнение между закрытыми моделями - нормально, но интереснее увидеть какой есть разрыв (и есть ли он) с открытыми моделями.
Claude пользовался через cursor - не могу оценивать корректно, но в целом не плохо.
Gemini 3.1 через antigravity - пробовал разные задачи, мне не понравился, часто ошибается, делает лишнее или не доделывает, не смотря на точные спеки и строгие правила.
Последнее время использую GPT 5.3 codex и 5.4 - дают вменяемый результат, но не без присмотра все равно.
До режима "дал задание и пошёл спокойно пить кофе" всем ещё далеко, все равно нужно делать ревью, ручные тесты и тому подобное.
Что характерно, код не предоставили) Я попробовал в локальный квен кодер 3 next первое задание забросить и получился результат визуально точь-в-точь как у чата джипити. И с предоставленными примерами всё работает. А вот если попробовать найти косинус 0, то сыпятся ошибки. Поэтому без кода от всех нейросеток мы не можем проверить, что даже тот же клод считает без ошибок.
Сравнение в статье конечно не очень связано с разработкой, зато есть рекламодатель 🙂
(дали б хоть cli tools эти задачи, а не в чатике, я не говорю уже о подготовке доков, скиллов и тулов для агента)
Во всех таких статьях сравнивают всегда: хоть кого, кроме дипсик. Всегда вопрос почему.
Более 80% ответов на этот вопрос - становятся основанием считать такие статьи говномусором.
Почему Дипсик? Да потому, что им - пользуются. И пользуются не на Марсе или юэсэй, а тут, в РФ, конкретно, и не только.
Это я лично считаю объективным аргументом.
Но, для особо продвинутых могу сформулировать кулюторно. Если человек, кроме доступного дипсик ничего другого не юзал. То, с чем ему сравнивать? Как понять, что кленовый сироп прекрасен, если есть только мёд и березовый сок?)
Я не жалуюсь. Но, раз выходят такие статьи, и такие псевдо-теств, значит они нацелены на кого-то. И это явно не 0,01% всех пользователей ИИ.
В общем, очередная шляпа.
Вот такое мнение от непрограммиста.
А что на счет Cursor? Она не конкурент? Интересно, почему про неё слова не сказано
Но вы же пишете бред. Опус дороже чем гпт в 2 раза
Какая нейросеть лидирует в генерации кода сейчас? ChatGPT vs Gemini vs Claude