meliksetyan Mar 25 at 20:46

TurboQuant. Новый алгоритм сжатия от Google

Medium

4 min

14K

Data compression * Algorithms * Research and forecasts in IT *

Review

Recovery Mode

+11

Comments 8

Triton5 Mar 25 at 23:01

Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.

Petr_axeman yesterday at 05:39

Проблема в том что внимание в контексте очень неравномерное, так что если к примеру контекст увеличится в 2 раза, возможно мы получим ещё больший разрыв во внимании модели к краям и к центру контекста.

Petr_axeman yesterday at 05:34

Говоря по-русски, bottleneck

Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.

meliksetyan yesterday at 07:41

Я рад, что вы оценили прикол.

Либо это я сейчас не выкупил ваш сарказм.

Zirgius yesterday at 12:32

Це был сарказм, рад что хоть кто-то оценил

murkin-kot yesterday at 08:50

А почему только кэш?

Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.

В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.

GidraVydra yesterday at 11:53

Сетки и так уже сжимают так, что аж треск стоит.

memfd 12 hours ago

Друзья, скрестим пальцы, что это хоть немного собьёт цены на RAM/VRAM память..