Свежий анализ SemiAnalysis показывает, что у монополии Nvidia появился серьезный противник. Google довел свою линейку TPU до седьмого поколения Ironwood — эти чипы уже использованы для обучения флагманских моделей вроде Gemini 3 и Claude 4.5 Opus с эффективностью не меньшей, чем у конкурента.

Одновременно компания выводит TPU на глобальный рынок ИИ-вычислений. Первый пример — сделка Google и Anthropic на миллион чипов TPU v7. Около 400 тысяч Ironwood на сумму порядка 10 млрд долларов Broadcom поставит Anthropic напрямую в виде готовых стоек, а инфраструктуру площадок и обслуживание возьмут на себя неоклауд Fluidstack и дата-центры бывших майнеров TeraWulf и Cipher Mining. Остальные примерно 600 тысяч TPU Anthropic будет арендовать через Google Cloud, что SemiAnalysis оценивает в 42 млрд долларов. Чтобы быстрее нарастить парк TPU, Google полагается не только на собственные дата-центры, но и на небольших облачных операторов. Такие "неоклауды" берут в долгосрочную аренду чужие площадки (в том числе бывшие крипто-фермы с дешевым электричеством) и наполняют их стойками с TPU. Финансовые гарантии при этом предоставляет Google.

По "бумажным" характеристикам TPU v7 чуть уступает новейшим серверам Nvidia: Ironwood немного проигрывает GB200 по пиковой вычислительной мощности и пропускной способности памяти и заметно отстаёт от GB300 по объему HBM-памяти (192 против 288 ГБ). Но в полной стоимости владения (TCO, total cost of ownership) картина обратная. В SemiAnalysis расчитали, что при закупке для собственных нужд стоимость владения оказывается примерно на 44% ниже, чем у решения на базе GB200, а для внешних клиентов, уже с наценкой Google, TPU v7 все равно остается до 30% дешевле GB200. Это не официальные данные, но их подтверждением может быть информация, что Nvidia предоставила OpenAI скидку в 30% после того, как последняя начала рассматривать переход на TPU.

Другим важным является не пиковая производительность в терафлопсах, а эффективность использования операций — коэффициент использования FLOP (MFU, Model FLOP Utilization). Nvidia и AMD любят завышать пиковые FLOP, опираясь на непродолжительные режимы работы и искусственные тесты, тогда как реальная загрузка при обучении крупных моделей редко выходит за пределы 30% от пика. Спецификации TPU, наоборот, считаются более "честными" — коэффициент использования FLOP оценивается минимум в 40%.

По подсчетам SemiAnalysis, все это ведет к тому, что для Anthropic, даже с учетом маржи Google и тарифа около 1,60 доллара за час TPU, полная стоимость владения на эффективный PFLOP получается примерно на 52% меньше по сравнению с GB300. Именно это стало одной из причин, почему компания смогла снизить цену использования в API новой Opus 4.5 сразу в три раза — причем аналитики полагают, что выручка самой Anthropic при этом даже выросла.

В SemiAnalysis отмечают, что пока Nvidia сохраняет большой отрыв в экосистеме благодаря использованию CUDA, PyTorch и огромному количеству готовых библиотек. TPU до недавнего времени были заточены под внутренние инструменты Google, а внешние клиенты сталкивались с более сложной отладкой и менее предсказуемой производительностью. Сейчас Google пытается это оперативно исправить, но компании еще понадобится время. Однако, по мнению SemiAnalysis, доминирующее положение Nvidia оказалось под угрозой и компании как минимум предстоит начать сокращать рекордные наценки на ускорители, которые она держит сейчас.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.