TurboQuant: Google сжал KV-кеш LLM до 3 бит без потери точности

Команда Google Research представила TurboQuant – новый алгоритм сжатия, который сокращает объём памяти, занимаемой KV-кешем больших языковых моделей, в 6 и более раз, при этом не жертвуя точностью. В тестах на ускорителях NVIDIA H100 использование 4-битной версии TurboQuant дало восьмикратный прирост производительности при вычислении логитов внимания, по сравнению с 32-битными неквантованными ключами.

Проблема KV-кеша хорошо знакома всем, кто запускает LLM с длинным контекстом. Эта “цифровая шпаргалка” хранит уже вычисленные данные внимания, чтобы не пересчитывать их на каждом шаге генерации. Однако с ростом контекстных окон именно KV-кеш становится главным узким местом по памяти. Традиционные методы векторного квантования, хоть и уменьшают его размер, требуют хранения квантованных констант в полной точности – это добавляет по 1–2 бита на каждое значение, что в масштабах больших контекстов превращается в существенный оверхед.

TurboQuant устраняет этот оверхэд за счёт двухступенчатого процесса.

На первом этапе в дело вступает метод PolarQuant. Вместо того чтобы работать с векторами в стандартных декартовых координатах (X, Y, Z), он переводит их в полярные координаты. Образно говоря, вместо “пройти 3 квартала на восток и 4 на север” вы получаете “пройти 5 кварталов под углом 37 градусов”. Теперь вектор описывается радиусом (сила данных) и углом (смысл). Поскольку распределение углов предсказуемо и сконцентрированно, PolarQuant избавляется от дорогостоящего шага нормализации данных, который требуется обычным квантователям. Это и даёт сжатие без оверхеда от хранения констант.

_{PolarQuant выступает в роли высокоэффективного компрессионного моста, преобразуя входные данные в декартовых координатах в компактную “стенографию” в полярных координатах для хранения и обработки. Механизм начинается с группировки пар координат из d-мерного вектора и их отображения в полярную систему координат. Затем радиусы собираются в пары для}_{рекурсивных полярных преобразований}_{– процесс повторяется до тех пор, пока данные не будут сжаты в один финальный радиус и набор описывающих его углов}

Второй этап – коррекция ошибок с помощью алгоритма Quantized Johnson-Lindenstrauss (QJL). Эта техника проецирует остаточную ошибку квантования в пространство меньшей размерности и сводит каждое значение к единственному знаковому биту (+1 или −1). По сути, это математический чекер на систематическую ошибку в вычислениях внимания, который обходится в один бит на значение и практически не добавляет вычислительных затрат.

Исследователи протестировали все три алгоритма на пяти наборах бенчмарков для длинных контекстов: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval. В качестве подопытных использовались открытые модели Gemma и Mistral. Результаты впечатляют:

TurboQuant сжимает KV-кеш до 3 бит на значение без необходимости дообучения или тонкой настройки модели и без измеримой потери точности.
Сокращение памяти достигает как минимум 6-кратного по сравнению с несжатым KV-хранилищем.
В задачах “иголка в стоге сена” (поиск одного факта в огромном тексте) TurboQuant показал идеальные результаты, одновременно уменьшив размер KV-кеша в шесть раз.
На ускорителях NVIDIA H100 4-битный TurboQuant обеспечил 8-кратное ускорение вычисления логитов внимания, по сравнению с 32-битными неквантованными ключами.

TurboQuant демонстрирует значительное увеличение производительности при вычислении attention logits внутри KV-кеша для различных уровней битности, измеренное относительно высокооптимизированного JAX-бейзлайна — *TurboQuant демонстрирует значительное увеличение производительности при вычислении* *attention logits* *внутри* *KV-кеша* *для различных уровней битности, измеренное относительно высокооптимизированного* *JAX*-*бейзлайна*

Но польза от метода не ограничивается одним лишь KV-кешем. TurboQuant отлично показал себя и в задачах векторного поиска, которые критически важны для систем семантического поиска, рекомендаций и даже для некоторых подходов в информационной безопасности (например, при поиске похожих индикаторов компрометации). На наборе данных GloVe с размерностью 200 TurboQuant достиг лучших показателей recall@k по сравнению с такими признанными методами, как Product Quantization (PQ) и RabbiQ, причём сделал это без использования больших кодовых книг и специфичной для датасета настройки, которые требуют конкуренты.

TurboQuant демонстрирует надёжную эффективность поиска, достигая оптимального коэффициента recall@k на наборе данных GloVe (d=200) по сравнению с различными современными бейзлайнами квантования — *TurboQuant демонстрирует надёжную эффективность поиска, достигая оптимального* *коэффициента recall@k* *на наборе данных* *GloVe* *(d=200) по сравнению с различными современными бейзлайнами квантования*

Важно, что TurboQuant не требует предварительного обучения и работает в режиме data-oblivious, то есть ему не нужна калибровка под конкретный набор данных. Это делает его крайне простым для внедрения в существующие системы инференса и поиска.

Как отмечают авторы исследования (соруководители Амир Зандиех и Вахаб Мирокни), в основе работы лежат не просто инженерные ухищрения, а строгие теоретические доказательства. Предложенные методы (PolarQuant, QJL и сам TurboQuant) работают вблизи известных теоретических нижних границ искажений, что гарантирует их надёжность в масштабных промышленных системах. Полная версия работы будет представлена на конференции ICLR 2026 в следующем месяце.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

TurboQuant: Google сжал KV-кеш LLM до 3 бит без потери точности – ускорение на H100 до 8 раз

Другие новости

Информация