Что такое TurboQuant? Разбираемся с термином вместе с экспертами из лаборатории ИИ компании «Криптонит».
Исследователи из Google Research представили на конференции ICLR 2026 новый набор алгоритмов квантизации TurboQuant. Он призван решить проблему чрезмерного потребления памяти при работе нейросетей с длинными контекстами.
В своих экспериментах авторы достигли с TurboQuant уменьшения требуемого объёма памяти в 6,4 раза при снижении точности всего на 1,2%. В наборе тестов LongBench, ZeroSCROLLS и RULER при сжатии до 5 раз практически отсутствовала разница в точности по сравнению с исходной моделью.
В отличие от популярных подходов (GPTQ, AWQ), TurboQuant сжимает не веса модели, а её «рабочую память», KV-кэш. Вдобавок, с ним не нужно хранить громоздкие поправочные коэффициенты, которые съедают выигрыш от сжатия.
При вычислении логитов внимания (attention logits) сжатая TurboQuant 4-битная модель сравнивалась с немодифицированной 32-битной в задаче обработки ключей KV-кэша. Это «узкое место» больших языковых моделей (LLM) и один из самых ресурсоёмких этапов инференса. В эксперименте с Nvidia H100 ускорение данного этапа наблюдалось до 8 раз.
Столь выдающийся результат был получен за счёт новой двухступенчатой схемы. Сначала PolarQuant преобразует декартовы координаты в полярные, что позволяет обойтись без вычислительно затратной нормализации и полностью исключает накладные расходы памяти (memory overhead). Затем алгоритм QJL (Quantized Johnson-Lindenstrauss) исправляет ошибки квантизации, повышая точность последующих вычислений.
Согласно проведённым авторами экспериментам, TurboQuant позволяет обрабатывать LLM в разы более длинные контексты на существующем оборудовании, одновременно увеличивая скорость и снижая расходы на обработку сложных запросов.






