meliksetyan25 мар в 20:46

TurboQuant. Новый алгоритм сжатия от Google

Средний

4 мин

13K

Сжатие данных * Алгоритмы * Исследования и прогнозы в IT *

Обзор

Recovery Mode

Комментарии 7

Triton5 25 мар в 23:01

Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.

Petr_axeman 22 часа назад

Проблема в том что внимание в контексте очень неравномерное, так что если к примеру контекст увеличится в 2 раза, возможно мы получим ещё больший разрыв во внимании модели к краям и к центру контекста.

Petr_axeman 22 часа назад

Говоря по-русски, bottleneck

Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.

meliksetyan 20 часов назад

Я рад, что вы оценили прикол.

Либо это я сейчас не выкупил ваш сарказм.

Zirgius 15 часов назад

Це был сарказм, рад что хоть кто-то оценил

murkin-kot 19 часов назад

А почему только кэш?

Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.

В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.

GidraVydra 16 часов назад

Сетки и так уже сжимают так, что аж треск стоит.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий