Maslennikovig28 мая в 15:40

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Сложный

17 мин

18K

Машинное обучение * Искусственный интеллект

Мнение

+16

Комментарии 16

ontop 28 мая в 21:20

Видимо опытным путем уже научился определять уровень модели. :)

Прошлые 2 месяца сидел на GPT5.4, 5.5

Вышла Kimi2.6 сразу перешёл = GPT5.4 + Opus 4.6. Прекрасная модель, ещё и opensoure.

Опытным путем заметил, что Sonnet 4.6 уже не тянет или тянет, но слаб в глобальном планировании. Нет такого уровня как у Kimi2.6.

Дальше перешёл на DeepSeekV4Flash из-за скорости. Kimi2.6 для меня слишком задумчивый, если ускорят будет бомба. (Уже была новость, что ускорили в 10 раз).

На самом деле мы подошли уже в тому краю, когда уровень написания кода моделями примерно равный. Отличаются они только разной способностью планирования.

Composer 2.5 вышел, пропустили? Очень хорош, в задачах кодинга.

Подготовил себе около 50 задач для тестирования уровня моделей для моих задач. Вчера начал собирать информацию, а оказалось разницы там между моделями топ уровня уже 92-98%.

Но Gemini 3.5 flash крутая. Но она слишком самонадеянная, а именно в моем случае использовал недельный лимит токенов на 100$ ее обещаниями адаптировать llama под RDNA4 шейдеры. Каждый час, вот вот... В итоге оказалось есть в GPU некоторые инженерные моменты про которые модель не знает и она начинает нести откровенную ересь тем самым хватаясь за любую соломенку, только бы оправдать полный провал. То есть она очень легко может галлюацинационировать вам план, который будет связан с реальностью только слухами которые она слышала и приняла за чистую монету.

rodial 28 мая в 21:36

Gemini затачивается в том числе под поиск и в этом 3.5 вполне хороша, если предоставить ей возможность гуглить то и результат скорее всего будет иной.

Absamad 29 мая в 05:22

В агентских задачах, разница все ещё большая

Я там успел уже хорошо поработать с разными моделями, причем плотно, брал на кажду подписку

Минимакс 2.7 оказался очень быстрым, но насколько же глупым

Простейшие задачи решает, в сложных ходит кругами

Кими 2.6 на порядок лучше

Уже можно давать решать сложные задачи

Кругами не ходит, но до результата доходит долго и не всегда

Мимо 2.5 про тоже был неплох, где-то на уровне Кими, но чуть хуже

А вот чат гпт 5.5 показал себя просто великолепно

Решал вообще все что приходило в голову

По приколу кидал и довольно непростые, длинны задачи, которые решаются часами, он единственный кто мог уверенно дойти до конца

Все это делал в гермес

Там прям реально, каждый процент выполненных моделями задач на terminal bench был отчётливо виден

По цене конечно да, разница большая

Но если брать гпт про за 100 баксов, то там лимиты очень щедрые, из я тратил уже не задумываясь об экономии, хватало с запасом ( с учётом двойных лимитов )

Кими за 40 баксов не хватало, приходилось экономить

Гпт плюс хватало где-то на час, потом нужно ждать 5 часов

У минимакса ну прям очень щедрые лимиты да копейки ( 15к запросов в неделю за 8 баксов ), но тратить мне их было особо некуда, модель слабовата

Luis2 29 мая в 11:10

Базовый шаблонный код они все генерят сносно, проблемы начинаются когда проект разрастается за пределы пары файлов и не лезет в контекстное окно

TailsMan 30 мая в 00:33

Пока что.

Altair2021 28 мая в 22:56

Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.

Мб пропустил, но бенчмарк был через api openrouter'а или через веб-интерфейс? Если через апи -- то почему модель и её генерации должны как-то меняться?

Luis2 29 мая в 11:14

Через опенроутер запросы могут идти через разных сторонних провайдеров с разными параметрами квантизации, отсюда и плавающее качество генерации на одной и той же модели

Altair2021 29 мая в 16:06

Через опенроутер можно чётко задать провайдера. Иначе то, что "бенчмаркили" в статье, по сути, не имеет смысла. Просто поведение модели у разных провайдеров может отличаться из-за настроек хотя бы контекста и длины вывода. Тогда правильнее было бы сравнить поведение одной модели у разных провайдеров (и в разные промежутки времени).

Кроме того, автор статьи явно указывает "модель стоит на месте, несмотря на месяц после релиза", что не вяжется с опенроутером и провайдерами.

novice2001 29 мая в 06:56

Замечание по расчету ошибки стоимости. Нельзя, просто математически нельзя занизить стоимость на 140% и получить положительное значение. Если стоимость занизить на 100%, вы уже получите 0. А дальше она станет отрицательной.

Реальное занижение в ваших примерах составляет от 34,88% (вместо 53) до 58,37% (вместо 140).

Robastik 30 мая в 13:54

И весь остальной анализ на таком же уровне, будто бредогенератор писал.

Luis2 29 мая в 11:07

Я эту гонку бенчмарков читаю как спор аудиофилов про теплый ламповый звук. В проде у тебя все равно половина промптов отвалится из-за галлюцинаций какую LLM ни возьми

Dimentr_AI 1 июн в 05:05

ждём gpt 5.6, поскорей бы)

GOR2100 1 июн в 05:06

Ds v4pro сейчас со скидкой 75% и она заканчивается 01.06.2026

Об этом написано на сайте дипсика в разделе цены, под табличкой, так что это может быть сюрпризом, но цена в 4 раза вырастет...

Rozanfox 1 июн в 05:07

Сейчас скажу 2 вещи которые разобьют розовые мечты автора о чугуную жопу реальности по поводу "Джемини лучше". Я работаю с несколькими ai. Я покупаю pro это и gemini и gpt .
1. Задай задачу джемини взять текст например: правил дорожного движения. Сделать литературное оформление, и создать таблицу в которой будут 6 столбцов с примерами и каждый стобик должен быть своего цвета и примеры "как правильно и не правильно" должны иметь цвет красный и зеленый" Попроси в этом же создать базовые правила по знакам сгенерировав примеры иконок взяв смайлы. И самое главное это попроси сохранить в docx с форматирование полей 1 см, шрифтом например calibri и размеров в 20.
Ответ будет : Как искусственный интеллект, я технически не могу сгенерировать и напрямую отправить тебе файл в формате .docx. Однако я подготовил полный текст истории, который ты можешь скопировать в документ.

Это значит что джемини не способен сохранять текст в текстом формате, и любое где тебе надо делать сложную схему, оформление, таблицу он не выполнит. GPT сделает все сразу без танцев с бубном. Для джемини это сразу минус 20 баллов. Даже для перевода тебе придется самому все оформлять если в оригинале есть оформление отличимое от стандартного ариала черным цветом.

2. Насчет дешевле. Видно что автор текст через джемини и не разбирался на самом деле как оно есть. У джемини есть лимиты на создание арта. Даже на pro версии тебе даст сделать только 3 анимации и 20 pro артов дальше тебе скажет "сорян приходи завтра" у GPT нет лимита на генерацию на сутки. ты можешь делать по 40-50 артов каждые три часа. и столько же видео. Это ещё - 20 балов.

Altair2021 1 июн в 13:19

Это значит что джемини не способен сохранять текст в текстом формате, и любое где тебе надо делать сложную схему, оформление, таблицу он не выполнит

А это не выполнит ни одна из моделей без специальной обвязки. То, что опенаи эту обвязку реализовали, а у гугла она недоступна -- не говорит о том, что модель гугла хуже) просто говорит об уровне сервиса гугла (если это действительно Pro план)

Teneviker 4 июн в 14:08

Гпт 5.5 рвет всех в пух и прах. Гемини 3.5 отвратительна, не то что как агент, а даже в диалоге на сайте аистудио - юлит, забывает, выдумывает. Хотите делать доклады в школу - пожалуйста. Для серьезных работ по кодингу точно нет, спасибо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий