Комментарии 5
Бабушка приехала, живые и настоящие Gemini 3.1 Pro дорожают. Вам никто не даст уже, чтобы живая фрактальная модель работала, живые это для богатых..
К сожалению, пик прошёл. Сейчас простым наивным LLM модель не живую предлагают.
Gemini 3.2, 3.5 это модели т.е. это несчастный фантом с вырезанным ядром и перестроенный только на текстовую модель.
Спасибо за статью, но дьявол в деталях:)
"Давайте посчитаем: для тяжелой модели 500k токенов контекста на одного пользователя могут занимать от 10 до 40 ГБ видеопамяти просто для поддержания сессии. А теперь представьте, что таких любителей бесплатного сыра миллион. "
Эээ..... Ну и что?:)
Да, мы можем запустить калькулятор https://lmcache.ai/kv_cache_calculator.html и упасть в обморок. Но есть нюанс.
Никто ваши десятки гигов кэша не будет хранить в HBM напрямую.
Контент, кроме ближайших слоёв, сжимается в FP8 сразу. Дальний контент калибруется и сжимается в INT8. Контент с плохой связностью - даже в INT4.
Multi-head Latent Attention сжимает кэш (с небольшими потерями качества) ещё до 30 раз (см. DeepSeek).
А неактивные части контекста вообще можно сбросить в DDR или даже на SSD, чтобы не путалось под ногами.
В общем, ваш большой контент раскромсают и сожмут примерно в 100 раз. А чтобы не пересчитывать токены, будут их переиспользовать, и напишут цену на кэшированные токены в 10 раз меньше (что тоже очень выгодно).
Поэтому "представьте, что таких любителей бесплатного сыра миллион. " - ну представили, Гугл потянет...:)
Все режут расходы в этом году
Аффтор, здесь всё гораздо проще: Гугл (да и прочие "ИИ-гиганты") - это планетарного размера драг-дилер, предлагающий первую дозу бесплатно, вторую за пол-цены, а последующие - уже за полный прайс. Поздравляю всех "ИИ-энтузиастов": вас поимели корпорации, подсадив на ИИ-иглу, без которой вы и вам подобные уже в ближайшее время не сможете кодить. Забери у вас эти кубы хмурого ИИ-токены - и вы никто, продаёте бабушкин телевизор, а потом лезете в петлю.
Одумайтесь, пока не поздно.
Я был там, Гэндальф, это было 3000 лет назад…

Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов