dmitrifriend Mar 6 at 07:08

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Medium

22 min

87K

BotHub corporate blogArtificial IntelligenceMachine learning*IT-companiesThe future is here

Review

+23

Comments 14

arse00n Mar 6 at 08:32

Мелкие модели не пригодны для работы

gpt 4o mini и google gemini flash проваливают почти все запросы в которых нужно отвечать за слова

Крупные обычно справляются с несложными заданиями, но стоят как крыло от самолета если вызывать их через API.

Простой запрос на выборку из таблички меньше 4к токенов размером, правильный ответ от большой модели (ну или во всяком случае явной дичи в ответе не видно)

И явная ошибка в ответе от мелкой модели. У гугловских моделей аналогично, ПРО отвечает прилично, флеш явно врёт.

Antra Mar 11 at 09:28

За Gemini обидно стало :)

После множества перепробованного выбрал gemini/gemini-2.0-flash-exp для "предварительного обсуждения кодинга" (составить план того, что нужно сделать). А уже для написания кода по подготовленному плану deepseek/deepseek-chat.
Это я про инструменты типа aider, RooCode...

Если бы вопрос цены не стоял, вместо дипсика, разумеется, использовал бы anthropic/claude-3.7-sonnet.

StraNNicK Mar 14 at 08:47

Если бы вопрос цены не стоял, вместо дипсика, разумеется, использовал бы anthropic/claude-3.7-sonnet.

попробуйте оплату не по подписке, а за реальное использование. Ценник гуманнее выходит

Antra Mar 14 at 13:21

Я с удовольствием. Но как такое может быть?
С Claude Code (и 3.7 sonnet) буквально пару часов поиграл и $5 просадил. Попросил рефакторинг 10К скрипта...

А потом стал искать подобное, гонял Anon Kode, Aider. В таком же режиме Дипсик в разы дешевле обошелся.

Я когда разбирался с этим, выписал себе цены на модельки в одном месте (в реальности, конечно, "родные" API использую, где возможно):

openrouter/deepseek/deepseek-chat 131,072 context $1.2/M input tokens $1.2/M output tokens
openrouter/deepseek/deepseek-r1 64,000 context $0.55/M input tokens $2.19/M output tokens
openrouter/anthropic/claude-3.7-sonnet 200,000 context $3/M input tokens $15/M output tokens
openrouter/google/gemini-2.0-flash-001 1,000,000 context $0.1/M input tokens $0.4/M output tokens

Даже если на output не смотреть (считать, что основной расход идет на загрузку контекста), разница значительна.

Вы как рекомендуете Sonnet? В виде родного Claude Code, чего-то подобного (aider) или расширений типа Continue.Dev, Roo Code?

kalapanga Mar 14 at 11:06

Т.е. молодая женщина Артемий Калашников в ответе "большой модели"- это не ошибка?

IAmThat Mar 14 at 14:18

Там ниже вас спросили насчёт странной женщины в большой модели 😉.. Ну и название профессий тоже совершенно выдуманные .

positroid Mar 6 at 09:06

А вчера еще 4.5 research preview раскатали для Plus подписчиков (до этого была доступна для Pro и ограниченно в API), правда лимиты пока непонятны

domix32 Mar 6 at 20:35

Если перед вами стоит задача, требующая глубокого анализа, работы с научными статьями или построения сложных гипотез, ваш выбор — рассуждающие модели: o1 или o1-pro, а также o3-mini‑high

Мне интересно у кого-нибудь вообще это хоть раз работало? Сколько трогал всякие модели, оно после пары-тройки запросов легко начинает выдумывать всякую фигню, которую в статье потом не найти. Аналогичная ситуация, когда начинаешь спрашивать какие-то выжимки из статей - обычно они морозятся, мол читайте сами, расскажите мне, а я потом вам расскажу. Буквально, как в укрощении строптивого.

TitovVN1974 Mar 6 at 21:18

Grok3 - вроде нормально.

ruslaniv Mar 7 at 06:42

Спасибо за статью!

Я конечно понимаю, что разные модели по разному обучаются, на разных наборах данных, по разному выравниваются и тд, но этот зоопарк моделей у ОпенАИ уже начал если не раздражать, то точно путать. При это названия моделей никакой смысловой нагрузки не несут и путают еще больше. А если учесть, что еще появились кнопки Web Search и Deep Research, то вообще становится малопонятным - "куда жмать"?

В этом плане мне подход Антропик нравится больше - у меня всегда стоит галка на последней модели и все.

Прям Apple vs Nokia какой-то )))

Crist70 Mar 10 at 05:44

для разработчика самый огненный ai стек сейчас это v0, claude и cursor

v0 генерят ui прототип, загоняют в клод чтобы разбил на норм структуру проекта. Проект в курсор и там уже допиливание с бекендом

lazy_val Mar 12 at 06:03

Есть примеры проектов в открытом доступе?

Antra Mar 11 at 10:02

Есть ли смысл смотреть на "старые" модели? К примеру, o1-mini стоит вдвое дешевле 4o (обычного, не мини). Но ощутимо ли она хуже?

IAmThat Mar 14 at 13:49

Спасибо! Супер подробно и понятно! Было бы конечно классно еще такой же анализ моделей других фирм 😁