Kual 2 мая в 07:00

Claude лучшая модель?

Простой

5 мин

8.1K

Искусственный интеллектУправление разработкой*IT-инфраструктура*Исследования и прогнозы в IT*Управление продуктом*

Обзор

Перевод

Автор оригинала: Kilo Code

Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.

У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.

Сегодняшний перевод — Ultrathink: why Claude is still the king

Данные OpenRouter показывают тенденцию: разработчики охотно платят за Claude, несмотря на наличие бесплатных альтернатив от Google. При создании продакшн-приложений для них важнее стабильность и предсказуемость ответов ИИ, чем цена - даже если токены бесплатны.

Рынок ИИ повторяет путь облачных вычислений: «AWS не всегда был самым дешевым, но стал самым надежным». Сейчас мы наблюдаем «разделение рынка» на приложения, чувствительные к цене, и на приложения, где критична надежность. Такая схема «происходила практически на каждом технологическом рынке».

OpenRouter стал фактическим местом для запуска новых моделей, и сообщество открытого исходного кода активно принимает эту практику, с постоянно растущим количеством токенов, отправляемых через них.

OpenRouter - это единая платформа с API, которая дает разработчикам доступ к более чем 300 языковым моделям ИИ от разных провайдеров через один стандартный интерфейс.

Ценность OpenRouter заключается не только в том, что он предоставляет доступ к нескольким моделям, но и в том, что он дает нам видимость фактического использования. Раньше нам приходилось полагаться на пресс-релизы компаний и избирательные тесты. Теперь мы можем видеть, что разработчики на самом деле выбирают при создании проектов. Например, мы можем увидеть множество новых приложений, использующих последнюю модель Deepseek v3.

Использование токенов Google высокое, но значительная часть субсидируется

Мы решили посмотреть, какая модель на самом деле является фаворитом сегодня на платформе, среди всех приложений. По абсолютным показателям кажется, что Google лидирует с большим отрывом, но означает ли это, что их модели лучшие?

Если посмотреть шире, история выглядит немного иначе. Модели Google действительно хороши — я не утверждаю обратное — но около ~22% их общего использования токенов (на сегодняшний день) субсидируется через бесплатные модели. Это оказывается отличной стратегией для увеличения использования, но мало говорит о том, какие модели на самом деле лучшие.

Бесплатные токены похожи на бесплатные образцы в продуктовом магазине. Они хороши для того, чтобы люди попробовали ваш продукт, но не обязательно указывают на предпочтение. Важнее то, что люди выбирают, когда тратят свои собственные деньги.

Около 20% предложений Google в OpenRouter - это :free (бесплатные) модели

Claude по-прежнему остается любимой платной моделью в OpenRouter

Сравните это с Anthropic: у них вообще нет бесплатных моделей. Фактически, Claude 3.7 Sonnet используется даже больше, чем бесплатная и платная версии Gemini 2.5 Pro вместе взятые!

Конечно, если у вас ограниченный бюджет, вы будете использовать Gemini 2.5 Pro, но столкнетесь с серьезными ограничениями скорости. Поэтому, когда вам это надоест, вам нужно будет выбрать: платить за ту же модель, которую вы использовали, или перейти на другую? Среди тех, кто готов платить, Claude 3.7 Sonnet видит в три раза больше использования.

Без сомнения, рост Google был впечатляющим, и мне действительно нравится, что они выпускают недорогие модели, которые работают очень хорошо, плюс большие контекстные окна с отличными возможностями поиска. Но они побеждают только если смотреть на их бесплатные модели. Будет действительно интересно увидеть, останется ли использование Gemini 2.5 таким же высоким, когда эти бесплатные кредиты иссякнут.

Нет :free (бесплатных) моделей от Anthropic в OpenRouter

Это напоминает мне то, что произошло с облачными провайдерами. AWS не всегда был самым дешевым вариантом, но стал самым надежным. Когда вы создаете что-то важное, вы отдаете предпочтение надежности, а не стоимости, в разумных пределах. Тот факт, что разработчики готовы платить больше за Claude, говорит о том, что они получают что-то ценное взамен.

Я думаю, что мы наблюдаем начало разделения рынка. Будут приложения, чувствительные к затратам, которые используют что угодно, лишь бы это было дешевле (или бесплатно). И будут приложения, чувствительные к надежности, которые используют то, что работает наиболее стабильно, даже с премиальной ценой. Это произошло практически на каждом технологическом рынке по мере его созревания.

В чем секретный соус Anthropic?

Вчера Дарио Амодей, основатель Anthropic, опубликовал короткую статью о Срочности интерпретируемости, и мы не могли бы согласиться больше. Интерпретируемость — это наука понимания того, что на самом деле происходит внутри языковых моделей, не просто оптимизация для баллов в бенчмарках, а реальное выяснение того, как принимаются все решения.

Этот фокус на интерпретируемость не нов для Anthropic. У них есть глубокая исследовательская традиция в этой области, восходящая к пионерской работе Криса Ола pioneering work. Фактически, еще в 2021 году они создали Garcon, "микроскоп" для понимания того, что происходит внутри LLM. Этот инструмент позволил исследователям Anthropic продолжать изучать внутреннюю работу этих моделей, получать доступ к промежуточным активациям и модифицировать отдельные компоненты — по сути, дав им рентгеновское зрение внутри нейронных сетей.

Около месяца назад они опубликовали "О биологии большой языковой модели", где их команда по интерпретируемости решала фундаментальный вопрос о том, как LLM генерируют текст. Они не просто создают черные ящики; они пытаются понять, что происходит внутри.

Почему это важно? Когда вы выполняете сложные задачи, такие как программирование, вам нужны модели, которые могут следовать нескольким шагам, не теряя из виду то, что они делают. Понимание того, как модели работают внутри, позволяет улучшить их способности рассуждения в этих многошаговых сценариях.

Для демонстрации надежности Claude проверьте стрим Claude Plays Pokémon на Twitch. Он работает уже более 247 000 шагов — марафон последовательного принятия решений, который иллюстрирует, почему разработчики доверяют Claude для критически важных приложений.

Я подозреваю, что этот глубокий фокус на понимании того, почему их модели работают, а не просто того, что они работают, создает тот тип доверия и надежности, который заставляет разработчиков возвращаться, даже когда повсюду есть более дешевые или бесплатные варианты. Когда вы создаете что-то реальное, предсказуемый, высококачественный результат часто важнее, чем сырая цена токенов. Именно в этом Claude продолжает блистать.

Большинство сегодняшних бенчмарков AI измеряют возможности в идеальных условиях. Они не адекватно отражают надежность — насколько стабильно модель работает в разнообразных реальных сценариях. Anthropic, кажется, уникально сфокусирован на этом аспекте, который имеет огромное значение в производстве.

Рынок говорит четко: несмотря на агрессивное ценообразование конкурентов и даже бесплатные альтернативы, разработчики выбирают платить за Claude. Разрыв в ценности должен быть достаточно значительным, чтобы преодолеть чувствительность к цене.

То, что мы наблюдаем, — это созревание рынка ИИ от новизны к полезности. Первоначальное волнение по поводу возможностей уступает место практическим соображениям о надежности. Этот переход происходит на каждом технологическом рынке, и по мере того, как ИИ становится все более интегрированным в критические системы, последовательность будет иметь большее значение, чем сырая производительность.

Модели, которые выиграют в долгосрочной перспективе, не обязательно будут теми, у кого самые яркие демонстрации или самые низкие цены, а теми, на которых разработчики действительно могут положиться. Прямо сейчас Claude, кажется, понимает это лучше, чем большинство — и данные об использовании показывают, что разработчики согласны.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.