Search
Write a publication
Pull to refresh

Comments 14

Мелкие модели не пригодны для работы

gpt 4o mini и google gemini flash проваливают почти все запросы в которых нужно отвечать за слова

Крупные обычно справляются с несложными заданиями, но стоят как крыло от самолета если вызывать их через API.

Простой запрос на выборку из таблички меньше 4к токенов размером, правильный ответ от большой модели (ну или во всяком случае явной дичи в ответе не видно)
Простой запрос на выборку из таблички меньше 4к токенов размером, правильный ответ от большой модели (ну или во всяком случае явной дичи в ответе не видно)
И явная ошибка в ответе от мелкой модели. У гугловских моделей аналогично, ПРО отвечает прилично, флеш явно врёт.
И явная ошибка в ответе от мелкой модели. У гугловских моделей аналогично, ПРО отвечает прилично, флеш явно врёт.

За Gemini обидно стало :)

После множества перепробованного выбрал gemini/gemini-2.0-flash-exp для "предварительного обсуждения кодинга" (составить план того, что нужно сделать). А уже для написания кода по подготовленному плану deepseek/deepseek-chat.
Это я про инструменты типа aider, RooCode...

Если бы вопрос цены не стоял, вместо дипсика, разумеется, использовал бы anthropic/claude-3.7-sonnet.

Если бы вопрос цены не стоял, вместо дипсика, разумеется, использовал бы anthropic/claude-3.7-sonnet.

попробуйте оплату не по подписке, а за реальное использование. Ценник гуманнее выходит

Я с удовольствием. Но как такое может быть?
С Claude Code (и 3.7 sonnet) буквально пару часов поиграл и $5 просадил. Попросил рефакторинг 10К скрипта...

А потом стал искать подобное, гонял Anon Kode, Aider. В таком же режиме Дипсик в разы дешевле обошелся.

Я когда разбирался с этим, выписал себе цены на модельки в одном месте (в реальности, конечно, "родные" API использую, где возможно):

  • openrouter/deepseek/deepseek-chat 131,072 context $1.2/M input tokens $1.2/M output tokens

  • openrouter/deepseek/deepseek-r1 64,000 context $0.55/M input tokens $2.19/M output tokens

  • openrouter/anthropic/claude-3.7-sonnet 200,000 context $3/M input tokens $15/M output tokens

  • openrouter/google/gemini-2.0-flash-001 1,000,000 context $0.1/M input tokens $0.4/M output tokens

Даже если на output не смотреть (считать, что основной расход идет на загрузку контекста), разница значительна.

Вы как рекомендуете Sonnet? В виде родного Claude Code, чего-то подобного (aider) или расширений типа Continue.Dev, Roo Code?

Т.е. молодая женщина Артемий Калашников в ответе "большой модели"- это не ошибка?

Там ниже вас спросили насчёт странной женщины в большой модели 😉.. Ну и название профессий тоже совершенно выдуманные .

А вчера еще 4.5 research preview раскатали для Plus подписчиков (до этого была доступна для Pro и ограниченно в API), правда лимиты пока непонятны

Если перед вами стоит задача, требующая глубокого анализа, работы с научными статьями или построения сложных гипотез, ваш выбор — рассуждающие модели: o1 или o1-pro, а также o3-mini‑high

Мне интересно у кого-нибудь вообще это хоть раз работало? Сколько трогал всякие модели, оно после пары-тройки запросов легко начинает выдумывать всякую фигню, которую в статье потом не найти. Аналогичная ситуация, когда начинаешь спрашивать какие-то выжимки из статей - обычно они морозятся, мол читайте сами, расскажите мне, а я потом вам расскажу. Буквально, как в укрощении строптивого.

Спасибо за статью!

Я конечно понимаю, что разные модели по разному обучаются, на разных наборах данных, по разному выравниваются и тд, но этот зоопарк моделей у ОпенАИ уже начал если не раздражать, то точно путать. При это названия моделей никакой смысловой нагрузки не несут и путают еще больше. А если учесть, что еще появились кнопки Web Search и Deep Research, то вообще становится малопонятным - "куда жмать"?

В этом плане мне подход Антропик нравится больше - у меня всегда стоит галка на последней модели и все.

Прям Apple vs Nokia какой-то )))

для разработчика самый огненный ai стек сейчас это v0, claude и cursor

v0 генерят ui прототип, загоняют в клод чтобы разбил на норм структуру проекта. Проект в курсор и там уже допиливание с бекендом

Есть примеры проектов в открытом доступе?

Есть ли смысл смотреть на "старые" модели? К примеру, o1-mini стоит вдвое дешевле 4o (обычного, не мини). Но ощутимо ли она хуже?

Спасибо! Супер подробно и понятно! Было бы конечно классно еще такой же анализ моделей других фирм 😁

Sign up to leave a comment.