Комментарии 16
Видимо опытным путем уже научился определять уровень модели. :)
Прошлые 2 месяца сидел на GPT5.4, 5.5
Вышла Kimi2.6 сразу перешёл = GPT5.4 + Opus 4.6. Прекрасная модель, ещё и opensoure.
Опытным путем заметил, что Sonnet 4.6 уже не тянет или тянет, но слаб в глобальном планировании. Нет такого уровня как у Kimi2.6.
Дальше перешёл на DeepSeekV4Flash из-за скорости. Kimi2.6 для меня слишком задумчивый, если ускорят будет бомба. (Уже была новость, что ускорили в 10 раз).
На самом деле мы подошли уже в тому краю, когда уровень написания кода моделями примерно равный. Отличаются они только разной способностью планирования.
Composer 2.5 вышел, пропустили? Очень хорош, в задачах кодинга.
Подготовил себе около 50 задач для тестирования уровня моделей для моих задач. Вчера начал собирать информацию, а оказалось разницы там между моделями топ уровня уже 92-98%.
Но Gemini 3.5 flash крутая. Но она слишком самонадеянная, а именно в моем случае использовал недельный лимит токенов на 100$ ее обещаниями адаптировать llama под RDNA4 шейдеры. Каждый час, вот вот... В итоге оказалось есть в GPU некоторые инженерные моменты про которые модель не знает и она начинает нести откровенную ересь тем самым хватаясь за любую соломенку, только бы оправдать полный провал. То есть она очень легко может галлюацинационировать вам план, который будет связан с реальностью только слухами которые она слышала и приняла за чистую монету.
Gemini затачивается в том числе под поиск и в этом 3.5 вполне хороша, если предоставить ей возможность гуглить то и результат скорее всего будет иной.
В агентских задачах, разница все ещё большая
Я там успел уже хорошо поработать с разными моделями, причем плотно, брал на кажду подписку
Минимакс 2.7 оказался очень быстрым, но насколько же глупым
Простейшие задачи решает, в сложных ходит кругами
Кими 2.6 на порядок лучше
Уже можно давать решать сложные задачи
Кругами не ходит, но до результата доходит долго и не всегда
Мимо 2.5 про тоже был неплох, где-то на уровне Кими, но чуть хуже
А вот чат гпт 5.5 показал себя просто великолепно
Решал вообще все что приходило в голову
По приколу кидал и довольно непростые, длинны задачи, которые решаются часами, он единственный кто мог уверенно дойти до конца
Все это делал в гермес
Там прям реально, каждый процент выполненных моделями задач на terminal bench был отчётливо виден
По цене конечно да, разница большая
Но если брать гпт про за 100 баксов, то там лимиты очень щедрые, из я тратил уже не задумываясь об экономии, хватало с запасом ( с учётом двойных лимитов )
Кими за 40 баксов не хватало, приходилось экономить
Гпт плюс хватало где-то на час, потом нужно ждать 5 часов
У минимакса ну прям очень щедрые лимиты да копейки ( 15к запросов в неделю за 8 баксов ), но тратить мне их было особо некуда, модель слабовата
Базовый шаблонный код они все генерят сносно, проблемы начинаются когда проект разрастается за пределы пары файлов и не лезет в контекстное окно
Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.
Мб пропустил, но бенчмарк был через api openrouter'а или через веб-интерфейс? Если через апи -- то почему модель и её генерации должны как-то меняться?
Через опенроутер запросы могут идти через разных сторонних провайдеров с разными параметрами квантизации, отсюда и плавающее качество генерации на одной и той же модели
Через опенроутер можно чётко задать провайдера. Иначе то, что "бенчмаркили" в статье, по сути, не имеет смысла. Просто поведение модели у разных провайдеров может отличаться из-за настроек хотя бы контекста и длины вывода. Тогда правильнее было бы сравнить поведение одной модели у разных провайдеров (и в разные промежутки времени).
Кроме того, автор статьи явно указывает "модель стоит на месте, несмотря на месяц после релиза", что не вяжется с опенроутером и провайдерами.
Замечание по расчету ошибки стоимости. Нельзя, просто математически нельзя занизить стоимость на 140% и получить положительное значение. Если стоимость занизить на 100%, вы уже получите 0. А дальше она станет отрицательной.
Реальное занижение в ваших примерах составляет от 34,88% (вместо 53) до 58,37% (вместо 140).
Я эту гонку бенчмарков читаю как спор аудиофилов про теплый ламповый звук. В проде у тебя все равно половина промптов отвалится из-за галлюцинаций какую LLM ни возьми
ждём gpt 5.6, поскорей бы)
Ds v4pro сейчас со скидкой 75% и она заканчивается 01.06.2026
Об этом написано на сайте дипсика в разделе цены, под табличкой, так что это может быть сюрпризом, но цена в 4 раза вырастет...
Сейчас скажу 2 вещи которые разобьют розовые мечты автора о чугуную жопу реальности по поводу "Джемини лучше". Я работаю с несколькими ai. Я покупаю pro это и gemini и gpt .
1. Задай задачу джемини взять текст например: правил дорожного движения. Сделать литературное оформление, и создать таблицу в которой будут 6 столбцов с примерами и каждый стобик должен быть своего цвета и примеры "как правильно и не правильно" должны иметь цвет красный и зеленый" Попроси в этом же создать базовые правила по знакам сгенерировав примеры иконок взяв смайлы. И самое главное это попроси сохранить в docx с форматирование полей 1 см, шрифтом например calibri и размеров в 20.
Ответ будет : Как искусственный интеллект, я технически не могу сгенерировать и напрямую отправить тебе файл в формате .docx. Однако я подготовил полный текст истории, который ты можешь скопировать в документ.
Это значит что джемини не способен сохранять текст в текстом формате, и любое где тебе надо делать сложную схему, оформление, таблицу он не выполнит. GPT сделает все сразу без танцев с бубном. Для джемини это сразу минус 20 баллов. Даже для перевода тебе придется самому все оформлять если в оригинале есть оформление отличимое от стандартного ариала черным цветом.
2. Насчет дешевле. Видно что автор текст через джемини и не разбирался на самом деле как оно есть. У джемини есть лимиты на создание арта. Даже на pro версии тебе даст сделать только 3 анимации и 20 pro артов дальше тебе скажет "сорян приходи завтра" у GPT нет лимита на генерацию на сутки. ты можешь делать по 40-50 артов каждые три часа. и столько же видео. Это ещё - 20 балов.
Это значит что джемини не способен сохранять текст в текстом формате, и любое где тебе надо делать сложную схему, оформление, таблицу он не выполнит
А это не выполнит ни одна из моделей без специальной обвязки. То, что опенаи эту обвязку реализовали, а у гугла она недоступна -- не говорит о том, что модель гугла хуже) просто говорит об уровне сервиса гугла (если это действительно Pro план)
Гпт 5.5 рвет всех в пух и прах. Гемини 3.5 отвратительна, не то что как агент, а даже в диалоге на сайте аистудио - юлит, забывает, выдумывает. Хотите делать доклады в школу - пожалуйста. Для серьезных работ по кодингу точно нет, спасибо.

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству