Pull to refresh

Comments 8

Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.

Проблема в том что внимание в контексте очень неравномерное, так что если к примеру контекст увеличится в 2 раза, возможно мы получим ещё больший разрыв во внимании модели к краям и к центру контекста.

Говоря по-русски, bottleneck

Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.

Я рад, что вы оценили прикол.

Либо это я сейчас не выкупил ваш сарказм.

Це был сарказм, рад что хоть кто-то оценил

А почему только кэш?

Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.

В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.

Сетки и так уже сжимают так, что аж треск стоит.

Друзья, скрестим пальцы, что это хоть немного собьёт цены на RAM/VRAM память..

Sign up to leave a comment.

Articles