Комментарии 7
Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.
Говоря по-русски, bottleneck
Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.
А почему только кэш?
Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.
В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

TurboQuant. Новый алгоритм сжатия от Google