Теряет ли OpenAI деньги на подписках и другие прикидки на салфетке / Хабр

Проводить исследования рынка искусственного интеллекта в наше время вынуждены не только финансовые эксперты или аналитики, но и обычные пользователи. Это не преувеличение, тому есть реальные практические причины. К примеру, Сэм Альтман пообещал сбрасывать лимиты токенов в Codex при достижении каждого нового миллиона пользователей, поэтому послеживать за статистикой приходится. Простая прикидка показывает, что ближайший сброс состоится в конце мая.

На самом деле это лишь один из примеров подобных расчётов. Под катом мы попытаемся вручную оценить общую экономику происходящего и сделать некие выводы.

Когда Codex сбросит лимиты?

Вообще, эти подсчёты начинались исключительно из-за желания выяснить, когда OpenAI в очередной раз сбросит недельные лимиты Codex.

Codex — ИИ-агент для написания кода. Число запросов в Codex ограничивается двумя лимитами: большим недельным и за последние 5 часов (видимо, чтобы пользователь на радостях не прожёг недельный сразу). На двадцатидолларовом тарифе в недельный лимит упереться легко, и даже на двухсотдолларовом у многих получается.

7 апреля Сэм Альтман похвастал, что у Codex теперь 3 миллиона активных еженедельных пользователей, и пообещал, что отныне и до 10 миллионов лимиты использования будут сбрасываться при достижении каждого нового миллиона пользователей.

Этот подарок от 7 апреля был вовремя. Дело в том, что 2 апреля Codex перешёл с относительно простой, даже слегка грубоватой тарификации на более непрозрачную систему. Раньше расход считался усреднённо: один локальный запрос к GPT-5.3-Codex оценивался примерно в 5 кредитов, в GPT-5.5 — в 14, облачная задача или код-ревью пулл-реквеста через GPT-5.4-Codex — примерно в 34 кредита. Пользователь мог мыслить числом сообщений.

После 2 апреля OpenAI привязала расход к API-подобной тарификации: отдельно считаются входные токены, кэшированные входные токены и выходные токены. Отослать миллион токенов в GPT-5.3-Codex будет стоить 43,75 кредитов, в GPT-5.5 — уже 125; выходные токены обойдутся, соответственно, в 350 или 750 кредитов за миллион. Точное число кредитов на каждом из тарифов не раскрывается, в интерфейсе показывается лишь процент остатка пятичасового и недельного лимита.

К тому же 9 апреля лимиты на подписке ChatGPT Plus срезали в два раза. Конечно, правильнее будет сказать, что это просто закончился промо-период с удвоенным бонусным использованием, но вряд ли подписчики психологически были готовы воспринять ситуацию правильным образом. Если судить по жалобам, пользователи оценивали снижение драматично: в 5 раз меньше, в 10–15, «недельного лимита теперь хватает на день», «пятичасовой лимит закончился за два промпта», а у кого-то простая проверка 300-строчного скрипта съела 7 % пятичасового лимита, что немало напугало.

Публичного счётчика пользователей нет. Когда состоится следующий внеплановый сброс, неизвестно. Попробуем оценить самостоятельно. Для начала соберём все известные нам данные.

Число пользователей	Дата	Источник
Более 2 млн	2 апреля	Объявление о смене тарификации
3 млн	7 апреля	Пост OpenAI о корпоративном направлении (8 апреля), твит Альтмана про сброс (7 апреля)
Более 3 млн	16 апреля	Анонс большого обновления Codex
4 млн	21 апреля	Пост OpenAI о масштабировании Codex в компаниях, твит Альтмана про очередной сброс
Более 4 млн	28 апреля	Анонс Codex на AWS
Более 4 млн	14 мая	Пост про доступность Codex в мобильном приложении ChatGPT

Быстрый рост с 3 миллионов до 4 произошёл со скоростью в 71–77 тысяч пользователей в сутки. Если бы эта скорость сохранялась, то очередной сброс лимитов случился бы 4–5 мая, которого, как мы знаем, не случилось. В посте от 14 мая OpenAI всё ещё говорит, что Codex хотя бы раз в неделю пользуются более чем 4 миллионов человек, поэтому с документальной точностью знаем, что рост не превышает 43,5 тыс. еженедельных пользователей в сутки.

Сценарий	Пользователей 14 мая	Оценка следующего сброса
Оптимистичный	4,8 млн	20 мая
Сдержанный	4,5 млн	6 июня

Итак, путём таких нехитрых прикидок получаем, что сброс состоится в ближайшие недели. Впрочем, это ничего не значит: OpenAI может сбросить лимиты на Codex без особых на то причин — так, как это случилось 28 апреля. Тогда Тибо Соттьо, главный по Codex внутри OpenAI, объяснял сброс желанием отпраздновать хорошую неделю.

Экономика подписок

В СМИ часто говорят, что компании ИИ глубоко убыточны, но насколько на самом деле субсидируются подписки на ChatGPT и Claude? Для начала нужно разобраться, как на подобных подписках зарабатывать.

Подписка — понимание компании статистики пользования её сервисами. Подписочная экономика устроена на простом, но не всегда очевидном принципе: пользователь платит не за сам фактически потреблённый ресурс, а право потреблять его рамках неких лимитов своего пакета. Продавая абонементы, владельцы фитнес-зала рассчитывают, что в день позаниматься придёт лишь небольшая часть клиентов. Есть и более близкие к сфере высоких технологий примеры: оператор связи на самом деле не готов к абоненту, который будет круглосуточно забивать канал, а облачный сервис хранения файлов знает, что большинство пользователей не будет заполнять своё хранилище полностью.

Для иллюстрации последнего примера далеко ходить не нужно. Дополнительное место в облачной хранилке OneDrive компании Microsoft может быть как просто расширено за деньги — каждый 1 ТиБ за $10 в месяц, — так и получено в рамках подписки Microsoft 365. Если посмотреть на её условия, ситуация выглядит странно: за $130 в год 6 человек получают по 1 ТиБ хранилища. Если арендовать собственный сервер и настроить хранилище там, цена за 6 ТиБ даже в месяц получится больше, а Microsoft в этот пакет ещё и включает набор программ пакета Office. Да что сервер — домашнее NAS с амортизацией выйдет дороже. Как так получается?

Попробуем оценить, насколько для Microsoft выгодны подобные условия.

Для начала нам нужна цена собственно устройств. В последние годы стоимость промышленных жёстких дисков упала до приблизительно $15 за ТБ с небольшим разбросом из-за интерфейса подключения. К примеру, отчёт за I квартал 2026 года сайта DatacenterDisk утверждает, что самый выгодный жёсткий диск категории Enterprise — это 8-терабайтный Toshiba MG Series с интерфейсом SATA за $93,18, то есть за терабайт получается всего $11,65. (Ленточные накопители в статистике тоже есть, но LTO-устройства не всегда дешевле, а быстрого случайного доступа они обеспечить не могут).

Возьмём $15 за терабайт. Если жёсткий диск отработает 5 лет, то это $3/год амортизации. С другой стороны, сами диски — далеко не единственный компонент стоимости: нужен сервер с контроллерами, кабели, питание, охлаждение, место в стойке, замены, мониторинг и какое-то количество человеко-часов инженеров. Допустим, что путём оптимизаций удалось снизить реальную себестоимость одного физического терабайт·года до $7.

Подобные прикидки примерно совпадают с реальными оценками в индустрии. Тот же DatacenterDisk в марте этого года назвал самую минимальную совокупную стоимость владения: $5,6 за ТБ·год, если брать восстановленный (refurbished) жёсткий диск с SATA, или $8,60 за ТБ·год, если строить решение на новеньких SAS-винчестерах. В методологии этого источника учтено всё, включая выход дисков из строя и два часа в неделю труда обслуживающего персонала с североамериканской зарплатой в $75 в час. Backblaze в статье 2022 года похвастала, что новые серверы так дёшевы, что получается цена в $0,02 за ГБ хранилища. Понятно, что в эти данные техобслуживание и электроэнергия не входят, но даже сырые данные дают $4 за ТБ·год, если сервер отслужит 5 лет.

С другой стороны, электроэнергия не так уж и дорога́: в даташитах 20-терабайтного Seagate Exos X20 указано 5,4 Вт в простое и до 9,4 Вт при непоследовательных чтении и записи. Если для круглого счёта взять 8 Вт на 20 ТБ, $0,10 за кВт·ч и коэффициент эффективности использования энергии 1,17 (берём из отчётности Microsoft за 2025 фискальный год):

$\frac{8\,\text{Вт} \times 8760\,\text{ч} \times 1{,}17 \times \$0{,}10/\text{кВт·ч}}{20\,\text{ТБ}}\approx\$0{,}41/\text{ТБ·год}$

Даже если добавить потребление серверной обвязки, вентиляторов, сетевых карт и контроллеров, электричество для ёмкостного HDD-хранилища остаётся скорее десятками центов или единицами долларов на ТБ·год, а не десятками. Главные множители появляются позже: в избыточности, географии, метаданных и версионировании файлов (OneDrive это поддерживает).

Резервирование в общих чертах, но описано. Microsoft в документации по SharePoint и OneDrive рассказывает, что пользовательский контент хранится в Azure Storage, а метаданные — в Azure SQL Database. Каждый файл одновременно записывается в датацентры в основном и вспомогательном регионах, а внутри каждого региона используется Azure Locally Redundant Storage. В документации Azure сказано, что LRS подтверждает запись только после того, как данные записаны во все три реплики в регионе.

Microsoft

Итак, каждый байт логических данных пользователя превращается в 6 байт физических хранимых данных.

$\$7/\text{физический ТБ·год} \times 6\,\text{реплик}=\$42/\text{логический ТБ·год}$

История версий в SharePoint и OneDrive работает со всеми типами файлов. За счёт истории возможно откатить действия за последние 30 дней. Кроме того, в архитектуре используется append-only storage: при изменении файла записываются новые фрагменты, а прежние остаются неизменными до окончательного удаления. Для сохранности и защиты от злонамеренной перезаписи это хорошо, для экономии места при активном редактировании — не очень.

Не все пользователи каждый день редактируют весь терабайт данных. Мы не можем угадать, сколько из файлов редактируют часто. Щедро допустим, что их 10–20 % от общего объёма, в среднем — 15 %.

$\$42 \times 1{,}15 \approx \$48/\text{ТБ·год}$

Округлим до $50 за ТиБ·год.

Кстати, Microsoft получает не $130: часть уходит на комиссию платежных систем, часть получают партнёры, часть теряется на ценовую дискриминацию в некоторых регионах, где подписка продаётся дешевле. (Автор этих строк за $80 приобрёл 15-месячную семейную подписку из Гонконга). Сама Microsoft тоже не жадничает и не против накинуть месяцок в подарок, если пользователь прикрепит банковскую карточку для будущих списаний.

В целом, Microsoft 365 действительно приносит не так уж и много: в отчёте Microsoft за 2025 фискальный год у строки Microsoft 365 Consumer products and cloud services приводится сумма выручки $7,404 млрд при 89,0 млн подписчиков. Грубое деление даёт $83 на подписчика в год. В этом числе смешаны Personal, Family, Basic, разные страны с реселлерами, месячные и годовые тарифы.

Наша прикидка показывает, что если семья хранит суммарно до ≈2 ТБ данных, то подписка Microsoft 365 приносит компании деньги, если больше — Microsoft фактически субсидирует хранение файлов. В этом расчёте полностью игнорируется польза пакета Office и расходы на его разработку.

С другой стороны, 2 ТБ — это огромный объём данных. Поскольку каждый получает ровно 1 ТиБ, это 3–4 неплохо наполненных аккаунта. Далеко не в каждой семейной подписке даже задействовано столько посадочных мест, не говоря уже про сдержанные аппетиты к облачному хранилищу у обывателей.

Размер ChatGPT и Claude

С другой стороны, не надо рассчитывать, что любая компания готова предоставлять щедрые лимиты за фиксированную цену просто потому, что в конечном итоге в финансовой отчётности получается плюс. Та же Microsoft с октября 2014 года не имела лимитов на хранилище вовсе. Вскоре некоторые абоненты Office 365 (ныне подписка носит название Microsoft 365) начали загружать терабайты данных в облако. Через год малина закончилась: в ноябре 2015 были введены текущие лимиты в терабайт на нос. Как выяснилось, отдельные уникумы умудрились выгрузить 75 ТБ — как утверждалось, в 14 тыс. раз больше, чем средний пользователь. (Кстати, выпустив это число в объяснении, Microsoft дала неплохую подсказку, насколько мало среднестатистический пользователь хранил в облаке: всего 5,4 ГиБ).

Схожим образом подписка на ChatGPT или Claude включает ограниченное число запросов. Пусть клиент и может упереться в этот лимит, но пределы довольно крупные.

Чтобы оценить ситуацию с этими подписками, нужно знать себестоимость генерации ответа от больших языковых моделей. Произвести прикидку стоимости инференса различных БЯМ невозможно без информации об их размере. О последнем судить приходится по косвенным признакам, поскольку число параметров в языковой модели — это предмет коммерческой тайны.

Попыток оценить масштаб проприетарных БЯМ по косвенным признакам — стоимости и скорости инференса, скрытой размерности, утечкам логитов или эффективному числу параметров — было много (arXiv:2506.04645, arXiv:2403.06634, arXiv:2403.09539, arXiv:2412.04315). Недавно на LessWrong вышел анализ иного толка: по демонстрируемым знаниям.

На самом деле авторов на это вынудила другая работа Боцзе Ли из компании Pine AI (arXiv:2604.24827). В ней получалось, будто в флагманских GPT-5.5 и Claude 4.6 Opus почти десяток триллионов параметров. Статья на LessWrong — это, по сути, перепроверка результатов Ли, которая приходит к значительно более сдержанным выводам относительно размеров проприетарных моделей-флагманов.

До Pine AI подобные оценки в основном пытались произвести не по знаниям модели, а по внешним следам её работы. Самый очевидный путь — экономика инференса: посмотреть на цену API, скорость генерации токенов, типичное железо, загрузку ускорителей и из этого восстановить примерный размер модели. Проблема в том, что почти все множители в этой цепочке скрыты. Одна и та же модель может стать заметно дешевле или быстрее из-за квантизации, спекулятивного декодинга, улучшенного батчинга или другого железа для запуска. Может отличаться маржа в тарифах за счёт субсидирования, что, в общем-то, мы и пытаемся обнаружить.

Ли описал суть действий у себя в микроблоге и на личном сайте. Предложен более прямой и красивый ход: оценивать размер модели по объёму редких фактов, которые она помнит.

Подобный анализ построен на допущении, что если умение щёлкать задачки можно сжимать, то знание фактов подделать невозможно. Звучит логично: новые архитектуры, продвинутые датасеты и улучшенное дообучение позволяют маленькой модели догнать старую большу́ю на попугаях MMLU или HumanEval, а вот ответы на вопросы уровня «Какая столица у Норвегии?» или «Когда произошла битва при Гастингсе?» логическими рассуждениями вывести из общих принципов невозможно.

Метод так и назван — проверка несжимаемых знаний, Incompressible Knowledge Probes (IKP).

IKP-score у 89 БЯМ с открытыми весами растёт почти линейно с логарифмом числа параметров. По этой же регрессии автор затем проецирует на закрытые модели и получает оценки вроде 9,7 трлн параметров у GPT-5.5 или 5,3 трлн у Claude 4.6 Opus. arXiv:2604.24827

Pine AI собрала 1400 вопросов: 401 сгенерированных GPT-5, 557 из Wikidata, 345 про исследователей из DBLP и OpenAlex, а также 97 составленных вручную или перенесённых из более ранних версий датасета, чтобы выровнять покрытие лёгких и средних уровней. Кроме того вопросы были равномерно разбиты на 7 уровней сложности.

Тут и начинается одна из проблем датасета IKP. Таблица уровней сложности выглядит следующим образом.

Уровень	Смысл уровня	Сгенерированные GPT-5	Wikidata	DBLP и OpenAlex	Составленные вручную и унаследованные	Всего
T1	Общеизвестные факты	166	6	0	28	200
T2	Распространённые справочные факты	152	5	0	43	200
T3	Предметные знания	51	94	35	20	200
T4	Малоизвестные факты	32	111	51	6	200
T5	Глубокие (редкие) знания	0	100	100	0	200
T6	Длинный хвост знаний	0	141	59	0	200
T7	Экстремально редкие факты	0	100	100	0	200
Итого		401	557	345	97	1400

Как видно, все вопросы с T5 по T7 приходят только от Wikidata и базы исследователей. Это либо вопросы о годах основания, географии, авторах и организациях, либо задачи вида «В какой области информатики работает такой-то исследователь? Назовите одну его статью, систему, университет или соавтора». Проблем у вопросов много: это исследователи-тёзки, одинаковые названия у разных географических объектов, спорные даты основания, устаревшие записи, несколько правильных авторов. Если вопрос редкий, модель может знать правильный альтернативный ответ, но судья всё равно засчитает ошибку.

Типичный пример — это вопрос про год основания Оксфордского университета. Кажется, что это должен быть железобетонно устоявшийся факт, но на деле это не так. Есть свидетельства, что преподавать начали ещё в 1096 году, но точная дата основания неизвестна. Можно вспоминать, как в в 1248 году Генрих III даровал Оксфордскому университету королевскую хартию; можно обсуждать, когда именно разрозненное преподавание стало университетом в институциональном смысле.

Не меньше неаккуратно составленных среди вопросов по DBLP и OpenAlex, которые также зависят от времени. Со временем люди меняют направления деятельности, и профессор Вашингтонского университета Дан Сучу сегодня больше известен научными статьями про системы управления базами данных. Тем не менее в датасете IKP правильной сферой его деятельности будут считаться языки программирования.

Метод задания уровней вопросов также вызывает критику. Уровень в IKP — это не строго объективная оценка, а показатель того, как хорошо на вопросы отвечают шесть пороговых БЯМ. Первый уровень проходила Qwen 2.5 0.5B, второй — Qwen 2.5 7B, третий — Qwen 3 32B, четвёртый — Qwen 3 235B, пятый — Kimi K2.5 примерно на триллион параметров, шестой — проприетарная Gemini 3.1 Pro, флагман компании Google. Если вопрос решала опорная модель уровня T4, но не решала опорная модель уровня T3, вопрос относили к T4. Если его не решала ни одна из опорных моделей, он попадал в наивысший уровень T7.

Это не ручная разметка, но и полной объективности шкалы не получается. То, насколько хорошо отвечают на вопросы эти шесть моделей, влияет на выводы о 92 проприетарных БЯМ. Также в калибровочной выборке мало моделей выше 1 трлн параметров, а самые интересные закрытые БЯМ по версии самой Pine AI оказываются далеко правее этой области.

Как бы то ни было, но Боцзе Ли оценивал размер моделей на основе этих вопросов. БЯМ с температурой 0 получали вопросы, ответы оценивались ИИ-судьёй (Gemini 3 Flash Preview, тоже с температурой 0). Правильный ответ давал +1, частично правильный — +0,5, отказ — 0, а уверенный неправильный ответ наказывался вычитанием балла, −1.

Дальше выполнялась простая регрессия:

$A = \alpha \cdot \log_{10}(N) + \beta$

где — итоговая оценка в IKP, а — число параметров в миллиардах. Pine AI обучила эту прямую на 89 БЯМ с открытыми весами, где число параметров было известно, и получила $\alpha = 0{,}147$ , $\beta = 0{,}132$ c коэффициентом детерминации $R^2 = 0{,}917$ . Важно, что уровни вопросов не просто декоративны: итоговое число баллов IKP считалось как среднее по семи уровням сложности, каждый из которых получал одинаковый вес в финальной регрессии.

После этого регрессия просто инвертируется: если закрытая модель набрала такое-то значение в тесте IKP, по прямой находится эквивалентное число параметров $\hat N$ .

$\hat N = 10^{(A-\beta)/\alpha}$

Даже на этапе подсчётов была обнаружена ошибка. В статье Ли сказано, что отрицательные оценки по отдельным уровням не обрезаются снизу нулём, чтобы сохранить штраф за блеф. Но в опубликованных данных и коде такое обрезание всё-таки происходило, утверждает статья на LessWrong. Как замечает автор перепроверки, и код исследования, и сайт выглядят так, будто их завайбкодили в Claude Code. Сам Ли в обсуждении на китайской платформе вопросов и ответов Zhihu поведал на пиньине, что бенчмарк IKP за четыре дня собрал ИИ-агент.

Ошибка в подсчётах сильно поднимает результат маленьких моделей: они чаще галлюцинируют на сложных вопросах, но отрицательные оценки за уровень вопросов превращаются в нули. В результате наклон регрессии меняется, а оценки больших закрытых моделей становятся завышенными.

Более пологая прямая (выделено синим) в сравнении с результатами работы (красный пунктир) показывает, что оценка обнаруживает не такой огромный рост числа параметров флагманских БЯМ. LessWrong

Авторы статьи на LessWrong воспроизвели расчёты Ли, убрав зануление отрицательных оценок и исключив неоднозначные и неправильные вопросы. Таковых нашлось 131 штука: 86 из 345 вопросов про исследователей, 45 из 557 из Wikidata, 2 составленных вручную и ни одного проблемного от GPT-5. После этого в этой оценке размер закрытых моделей резко съёжился.

Модель	Реальные параметры	Оценка Pine AI	Оценка после правок LessWrong	Изменение
Gemini 3.1 Pro	—	40,8 трлн	4,65 трлн	↓8,8×
GPT-5.5	—	9,66 трлн	1,46 трлн	↓6,6×
GPT-5	—	4,09 трлн	1,33 трлн	↓3,1×
Claude 4.7 Opus	—	4,04 трлн	1,13 трлн	↓3,6×
Claude 4.6 Sonnet	—	1,73 трлн	0,66 трлн	↓2,6×
Grok 4.20 thinking	—	0,54 трлн	0,77 трлн	↑1,4×
DeepSeek R1	0,671 трлн	0,42 трлн	0,76 трлн	↑1,8×
DeepSeek V3	0,671 трлн	0,59 трлн	0,56 трлн	↓1,04×

Как видно, после правок оценки размера флагманских моделей OpenAI и Anthropic падают до разумного уровня в 1–1,5 трлн параметров, а интервалы неопределённости становятся шире.

Цена за токен

Вернёмся к нашим прикидкам на салфетке.

Итак, мы можем попробовать посчитать цену инференса, пусть и оценка выше ненадёжная. Надо только заметить, что цена за доступ API — это не себестоимость: в ней заложена маржа, простой мощностей, поддержка, SLA, приоритет, страховка от пиков нагрузки, затраты на разработку, скидки крупным клиентам и, возможно, сознательное завышение цены, чтобы фиксированные подписки оставались привлекательными. Но API всё равно полезен как верхняя планка.

Начнём с физического уровня. Как известно, для плотного decoder-only трансформера прямой проход на один токен требует примерно

$C_\text{forward} \approx 2N$

операций с плавающей точкой, где — число неэмбеддинговых параметров модели. Коэффициент 2 появляется из-за операции multiply-accumulate в матричном умножении (arXiv:2001.08361).

Паспортная производительность ускорителя — это красивая теория для качков в кожаных куртках. В реальности БЯМ почти никогда не превращает все эти теоретические флопсы в полезные операции. Часть времени уходит на чтение весов из памяти (ради чего вместо DRAM ставят HBM), синхронизацию между видеоускорителями, запуск ядер, сетевую коммуникацию, ожидание других запросов, слишком маленький batch size, ограничения задержки и так далее. Поэтому в расчётах используют долю от теоретического пика.

В литературе подобную метрику иногда называют MFU, Model FLOPS Utilization. В статье про модель PaLM приводятся значения этой метрики для запусков обучения: 21,3 % для GPT-3 на V100, 30,2 % для Megatron-Turing NLG 530B на A100 и 46,2 % для PaLM 540B на TPU wv4 (arXiv:2204.02311).

Инференс может и будет отличаться. Возможно ли, что декодирование ответа токен за токеном для живого чата упирается не в арифметику, а в память и сеть? В работе Epoch AI обсуждается ситуация, где Llama 3 70B на DGX H100 выдаёт 70 токенов/с при 15 % эффективности использования (arXiv:2506.04645). Meta¹ в описании своей системы Adaptive Ranking Model пишет о 35 % MFU на нескольких типах железа; и хотя это не чат-бот, а ранжирующая модель для рекламы, масштаб схож. Alibaba Cloud в статье про Aegaeon рассказывает про деплой для одновременного обслуживания многих БЯМ, где удалось поднять среднюю загрузку с 13,3–33,9 % до 48,1 %, одновременно сократив число ускорителей H20 с 1192 до 213 (doi:10.1145/3731569.3764815).

Проявим немного оптимизма и примем для наших расчётов значение MFU равным 35 %.

Возьмём H100 SXM. В даташите NVIDIA для H100 указываются 80 ГиБ HBM3 и до 3958 Тфлопс FP8 Tensor Core с учётом sparsity. Чтобы не считать бесплатное удвоение от структурной разреженности, возьмём половину: 1979 Тфлопс. В качестве цены аренды используем Lambda Cloud, где цена за H100 SXM 80GB опускается до $3,99 за GPU·час.

Тогда себестоимость миллиона токенов на триллион активных параметров получается:

$\text{cost}_{1M} = \frac{ 2 \cdot N_\text{active} \cdot 10^6 }{ F_\text{peak} \cdot u } \cdot \frac{p_\text{GPU-hour}}{3600}$

где $N_\text{active}$ — активные параметры, $F_\text{peak}$ — паспортные флопсы, — эффективная доля полезной загрузки, а $p_\text{GPU-hour}$ — цена часа видеоускорителя.

При $u = 35\%$ :

$\frac{2 \cdot 10^{12} \cdot 10^6}{1{,}979 \cdot 10^{15} \cdot 0{,}35}\cdot\frac{3{,}99}{3600}\approx$3{,}20$

за миллион токенов на 1 трлн активных параметров.

Теперь подставим оценки параметров из перепроверки IKP. Нужно заметить, что этот бенчмарк скорее оценивает общую ёмкость модели. Если модель построена на архитектуре mixture of experts и активирует только часть весов на токен, фактическая себестоимость инференса может оказаться ниже. Посчитаем только плотный сценарий.

Модель	Оценка параметров	Себестоимость миллиона токенов при 35 % MFU
GPT-5.5	1,46 трлн	$4,7
GPT-5.5 Pro	1,46 трлн	$27,6
Claude 4.7 Opus	1,13 трлн	$3,6
Claude 4.6 Sonnet	0,66 трлн	$2,1

Коэффициент 6× для GPT-5.5 Pro берётся не из числа параметров, а из следующего примитивного соображения: в API обычный GPT-5.5 стоит $5 за миллион входных и $30 за миллион выходных токенов, а GPT-5.5 Pro — $30 и $180, соответственно. Будем считать, что и себестоимость ровно в 6 раз выше.

Раз до этого дошло, сравним с розничной ценой API. Возьмём соотношение числа токенов ввода к токенам вывода равным 4 к 1. Для таблицы ниже нужно помнить, что для Claude 4.7 Opus токены ввода и вывода стоят $5 и $25 за миллион, соответственно, для Opus 4.6 Sonnet — $3 и $15.

Модель	Цена доступа в API за миллион токенов, где 80 % — входные	Прикидка себестоимости, за млн токенов	Грубая маржа до прочих расходов
GPT-5.5	$10,0	$4,7	53 %
GPT-5.5 Pro	$60,0	$28,2	53 %
Claude 4.7 Opus	$9,0	$3,6	60 %
Opus 4.6 Sonnet	$5,4	$2,1	61 %

Как видно, если заложить оптимистично низкую оценку числа параметров модели и хорошее использование ресурсов видеоускорителей, то даже при продаже доступа в API получается небольшая прибыль. Из этой выгоды ещё надо оплатить скидки крупным клиентам, простой мощностей и собственно разработку моделей, которые нужно постоянно улучшать. Хотя в подобной прикидке получается плюс, в реальности OpenAI в прошлом 2025 году потеряла порядка $9 млрд, Anthropic — около $3 млрд.

Ещё один вывод: изначальная оценка IKP, где GPT-5.5 построена на 9.66 млрд параметров, полностью нереалистична — OpenAI и Anthropic продавали бы доступ в API с глубокими убытками.

Себестоимость подписок на ИИ

Доступ в API закупают организации, а обыватель ходит на сайт ChatGPT или Claude и задаёт вопросы там. Если пользователю наскучило качество бесплатных ответов, ему придётся раскошелиться на $20 в месяц. Более требовательным клиентам OpenAI и Anthropic предложат на порядок более дорогую подписку за $200 или недавно появившийся переходный вариант за $100 в месяц. Насколько выгодны эти тарифы для компаний?

Здесь условия куда менее прозрачные. У обычного API цена выражена в токенах, а у подписки — в сообщениях, вызовах инструментов и других плохо формализованных единицах. Далее расчёты выполняются исключительно забавы ради.

В справке OpenAI сказано, что пользователи Plus и Business могут отправить в GPT 5.5 Thinking до 3000 сообщений в неделю. Там же указаны максимальные контекстные окна: для GPT 5.5 Thinking на платных тарифах — 256 тыс. токенов, а на Pro — 400 тыс., из них 272 тыс. входных и до 128 тыс. ответа. На другой странице объясняется, что Pro за $100 даёт в 5 раз больше лимитов, чем Plus, а Pro за $200 — в 20 раз больше. Там же есть оговорка: все модели GPT-5 на Pro считаются безлимитными, но с защитой от злоупотреблений, перепродажи доступа и автоматического выкачивания данных.

У Anthropic абсолютные значения спрятаны лучше. На странице выбора тарифа перечислены Claude Pro за $20 в месяц или $200 в год, Max 5x за $100 в месяц и Max 20x за $200 в месяц. В справке по Max уточняется, что Max 5x даёт в 5 раз больше использования за сессию, чем Pro, а Max 20x — в 20 раз больше. Кроме того, у Max есть два недельных лимита: общий по всем моделям и отдельный по Sonnet. Claude Code включён в Pro и Max, но его использование считается в тот же общий лимит, что и обычный Claude. Если лимит закончился, Anthropic предлагает так называемый extra usage — продолжить работу по стандартным ценам за API.

Возьмём несколько типичных действий пользователя, припишем каждому примерный расход токенов и посмотрим, что получится.

Нужно оговориться, что вычисления крайне приблизительные и зависят даже от языка запросов. Общеизвестно, что один токен для английского текста — это примерно 4 символа или ¾ слова. Для русского и смешанного текста разброс может быть куда больше.

К тому же влияет задача и метод организации контекста. Простые вопросы в чате — это тысячи токенов, длинные документы, репозитории, Deep Research и кодовые агенты — уже десятки и сотни тысяч, а в Claude Code каждый ход отправляет модели историю беседы, проектный контекст и новый запрос, из-за чего стоимость растёт не линейно с числом сообщений пользователя, а вместе с раздуванием контекста.

В датасете LMSYS-Chat-1M, где собран миллион реальных разговоров с 25 БЯМ, средний пользовательский промпт содержит 69,5 токена, а средний ответ — 214,5 токена; всё посчитано в реалиях токенизатора Llama 2 (arXiv:2309.11998). В датасете WildChat, где собран миллион разговоров именно с ChatGPT и API GPT-4, средний пользовательский запрос уже крупнее: 295,58 токена, средний ответ — 441,34 токена, а среднее число обменов репликами в разговоре — 2,54 (arXiv:2405.01470).

Понятно, что если считать не видимый текст, а фактический запрос в БЯМ, в контекст попадут системный промпт, память, инструменты, загруженные файлы и собственно история диалога. В любом случае, мы можем лишь попытаться угадать типичную длину диалога.

Как утверждает страница помощи, текстовые файлы и документы, которые можно выгрузить в ChatGPT, ограничены 2 млн токенов. Обрабатываться эти миллионы будут не одновременно. В другом месте говорится, что в контекст ChatGPT Enterprise можно положить 110 тыс. токенов из выгруженного документа, к остальной части документа ChatGPT будет получать доступ с помощью инструмента поиска.

Токены на Deep Research и ChatGPT 5.5 Pro придётся брать с потолка. В справке OpenAI инструмент Deep Research описывается как задача, которая может читать публичный веб, загруженные файлы и подключённые приложения, а лимит показывается пользователю как количество оставшихся запусков инструмента. Известно, что GPT-5.5 Pro — это всего лишь GPT-5.5, которая думает дольше. Однако оценить длину размышлений ChatGPT 5.5 Pro невозможно, поскольку аналогичных продуктов на рынке попросту нет. Даже обычная GPT-5.5 способна истратить тысячи и десятки тысяч токенов на reasoning, а «прошка» вообще может задуматься на час и больше.

Также тяжело будет оценить себестоимость потребления ресурсов в Codex и Claude Code. Известно, что Anthropic недавно рассказала, что среднестатический программист в вакууме будет потреблять токенов на $13 за рабочий день, а 90 % из разработчиков не потратят больше $30 на токены. На той же странице справки рекомендовано установить предел использования в 10–15 тыс. токенов в минуту на человека, если в организации больше 500 человек. Но это скорее маркетинговые заявления, чем свидетельство о себестоимости чего-либо.

Сведём наши допущения в таблицу и оценим, сколько сто́ит каждый из запросов.

Тип действия	Попытка оценить токены	GPT-5.5	Claude 4.7 Opus
Быстрый вопрос без рассуждения	3 тыс.	$0,014	$0,011
Обычный вопрос с рассуждением	15 тыс.	$0,071	$0,054
Вопрос с загруженным документом	60 тыс.	$0,28	$0,22
Deep Research / Research	200—500 тыс.	$0,94—$2,35	$0,72—$1,80
Запрос в GPT-5.5 Pro	100 тыс. — 1 млн	$0,47—$4,70	—
Сессия работы в Codex или Claude Code	100 тыс. — 1 млн	$0,47—$4,70	$0,36—$3,60

В офисную корзину для бумаги может уместиться либо два шара для боулинга, либо пятьдесят теннисных мячей, либо триста шариков для пинг-понга. Однако в реальной жизни там обычно лежат один шар для боулинга, пять теннисных мячей и небольшая кошка.

Схожим образом возможно вообразить типичного пользователя различных тарифов: он возьмёт всего понемногу. 250 мелких запросов, 100 вопросов c reasoning, 8 проанализированных документов, 2 отчёта из Deep Research, 2 сессии Codex — согласно расчёту выше, это $18,9, ниже подписки за $20. 700 чатов без reasoning, 500 с reasoning, 60 документов, 25 Deep Research, 25 запросов в ChatGPT 5.5 Pro и 16 сессий Codex — это $197,9, в пределах дорогущей подписки за $200 в месяц.

Ещё раз: эти прикидки себестоимости крайне ненадёжны и выполнены исключительно ради развлечения. Тем не менее даже в таких грубых оценках заметно, что при всех разговорах о субсидировании расхода токенов тарифы OpenAI и Anthropic могут хотя бы окупаться.

С другой стороны, очевидно, почему Anthropic наказывает за любые упоминания OpenClaw или агента Hermes в запросах к Claude Code — экономика тарифов слишком хрупкая. Раньше было выгодно отсылать многочисленные запросы от OpenClaw через Claude Max за $200 в месяц, поскольку в таком случае они тарифицировались как расход лимитов подписки. Позже лавочку прикрыли, при этом поначалу грубо: если в тексте запроса просто упоминались названия агентов, то эти токены уходили как extra usage, то есть с оплатой за число токенов.

Подобное поведение Anthropic вообще можно списать на желание увеличить кэшфлоу. В конце апреля компания на странице описания подписок показывала, что Claude Code в двадцатидолларовый тариф Pro якобы не входит. Как объясняла Anthropic, это был небольшой A/B-тест на 2 % посетителей.

Напротив, OpenAI демонстрирует щедрость — ну хотя бы на данном этапе. В мае компания временно удвоила лимиты Codex для подписчиков ChatGPT, а для тарифа Pro за $100 на странице прямо указывает 10× от лимитов Plus до 31 мая (в норме должно быть 5×). 5 мая проводилась офлайн-сходка 5/5 Party, на которую предлагалось записаться. Лимиты на Codex удесятирили не только тем, кто пришёл, а всем, кто просто записался.

У кого-то проблемы с вычислительными мощностями, а кто-то может позволить себе разбрасываться подарками. Если Anthropic запрещает тратить токены подписки Pro на бота OpenClaw даже через обходные пути, то OpenAI напротив, добавляет официальную поддержку. Хотя подобные простенькие расчёты показывают примерно схожую цену миллиона токенов, всю сложность экономической реальности они не отражают.

Деятельность экстремистской организации Meta (1) запрещена.