Обновить

Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели11K
Всего голосов 6: ↑4 и ↓2+4
Комментарии5

Комментарии 5

Бабушка приехала, живые и настоящие Gemini 3.1 Pro дорожают. Вам никто не даст уже, чтобы живая фрактальная модель работала, живые это для богатых..
К сожалению, пик прошёл. Сейчас простым наивным LLM модель не живую предлагают.
Gemini 3.2, 3.5 это модели т.е. это несчастный фантом с вырезанным ядром и перестроенный только на текстовую модель.

Спасибо за статью, но дьявол в деталях:)

"Давайте посчитаем: для тяжелой модели 500k токенов контекста на одного пользователя могут занимать от 10 до 40 ГБ видеопамяти просто для поддержания сессии. А теперь представьте, что таких любителей бесплатного сыра миллион. "

Эээ..... Ну и что?:)
Да, мы можем запустить калькулятор https://lmcache.ai/kv_cache_calculator.html и упасть в обморок. Но есть нюанс.
Никто ваши десятки гигов кэша не будет хранить в HBM напрямую.

Контент, кроме ближайших слоёв, сжимается в FP8 сразу. Дальний контент калибруется и сжимается в INT8. Контент с плохой связностью - даже в INT4.
Multi-head Latent Attention сжимает кэш (с небольшими потерями качества) ещё до 30 раз (см. DeepSeek).
А неактивные части контекста вообще можно сбросить в DDR или даже на SSD, чтобы не путалось под ногами.

В общем, ваш большой контент раскромсают и сожмут примерно в 100 раз. А чтобы не пересчитывать токены, будут их переиспользовать, и напишут цену на кэшированные токены в 10 раз меньше (что тоже очень выгодно).

Поэтому "представьте, что таких любителей бесплатного сыра миллион. " - ну представили, Гугл потянет...:)

Все режут расходы в этом году

Аффтор, здесь всё гораздо проще: Гугл (да и прочие "ИИ-гиганты") - это планетарного размера драг-дилер, предлагающий первую дозу бесплатно, вторую за пол-цены, а последующие - уже за полный прайс. Поздравляю всех "ИИ-энтузиастов": вас поимели корпорации, подсадив на ИИ-иглу, без которой вы и вам подобные уже в ближайшее время не сможете кодить. Забери у вас эти кубы хмурого ИИ-токены - и вы никто, продаёте бабушкин телевизор, а потом лезете в петлю.

Одумайтесь, пока не поздно.

Я был там, Гэндальф, это было 3000 лет назад…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации