Comments 14
Мелкие модели не пригодны для работы
gpt 4o mini и google gemini flash проваливают почти все запросы в которых нужно отвечать за слова
Крупные обычно справляются с несложными заданиями, но стоят как крыло от самолета если вызывать их через API.


За Gemini обидно стало :)
После множества перепробованного выбрал gemini/gemini-2.0-flash-exp для "предварительного обсуждения кодинга" (составить план того, что нужно сделать). А уже для написания кода по подготовленному плану deepseek/deepseek-chat.
Это я про инструменты типа aider, RooCode...
Если бы вопрос цены не стоял, вместо дипсика, разумеется, использовал бы anthropic/claude-3.7-sonnet.
Если бы вопрос цены не стоял, вместо дипсика, разумеется, использовал бы anthropic/claude-3.7-sonnet.
попробуйте оплату не по подписке, а за реальное использование. Ценник гуманнее выходит
Я с удовольствием. Но как такое может быть?
С Claude Code (и 3.7 sonnet) буквально пару часов поиграл и $5 просадил. Попросил рефакторинг 10К скрипта...
А потом стал искать подобное, гонял Anon Kode, Aider. В таком же режиме Дипсик в разы дешевле обошелся.
Я когда разбирался с этим, выписал себе цены на модельки в одном месте (в реальности, конечно, "родные" API использую, где возможно):
openrouter/deepseek/deepseek-chat 131,072 context $1.2/M input tokens $1.2/M output tokens
openrouter/deepseek/deepseek-r1 64,000 context $0.55/M input tokens $2.19/M output tokens
openrouter/anthropic/claude-3.7-sonnet 200,000 context $3/M input tokens $15/M output tokens
openrouter/google/gemini-2.0-flash-001 1,000,000 context $0.1/M input tokens $0.4/M output tokens
Даже если на output не смотреть (считать, что основной расход идет на загрузку контекста), разница значительна.
Вы как рекомендуете Sonnet? В виде родного Claude Code, чего-то подобного (aider) или расширений типа Continue.Dev, Roo Code?
Т.е. молодая женщина Артемий Калашников в ответе "большой модели"- это не ошибка?
Там ниже вас спросили насчёт странной женщины в большой модели 😉.. Ну и название профессий тоже совершенно выдуманные .
А вчера еще 4.5 research preview раскатали для Plus подписчиков (до этого была доступна для Pro и ограниченно в API), правда лимиты пока непонятны
Если перед вами стоит задача, требующая глубокого анализа, работы с научными статьями или построения сложных гипотез, ваш выбор — рассуждающие модели: o1 или o1-pro, а также o3-mini‑high
Мне интересно у кого-нибудь вообще это хоть раз работало? Сколько трогал всякие модели, оно после пары-тройки запросов легко начинает выдумывать всякую фигню, которую в статье потом не найти. Аналогичная ситуация, когда начинаешь спрашивать какие-то выжимки из статей - обычно они морозятся, мол читайте сами, расскажите мне, а я потом вам расскажу. Буквально, как в укрощении строптивого.
Спасибо за статью!
Я конечно понимаю, что разные модели по разному обучаются, на разных наборах данных, по разному выравниваются и тд, но этот зоопарк моделей у ОпенАИ уже начал если не раздражать, то точно путать. При это названия моделей никакой смысловой нагрузки не несут и путают еще больше. А если учесть, что еще появились кнопки Web Search и Deep Research, то вообще становится малопонятным - "куда жмать"?
В этом плане мне подход Антропик нравится больше - у меня всегда стоит галка на последней модели и все.
Прям Apple vs Nokia какой-то )))
для разработчика самый огненный ai стек сейчас это v0, claude и cursor
v0 генерят ui прототип, загоняют в клод чтобы разбил на норм структуру проекта. Проект в курсор и там уже допиливание с бекендом
Есть ли смысл смотреть на "старые" модели? К примеру, o1-mini стоит вдвое дешевле 4o (обычного, не мини). Но ощутимо ли она хуже?
Спасибо! Супер подробно и понятно! Было бы конечно классно еще такой же анализ моделей других фирм 😁
Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей