Исследователи DeepSeek представили Engram — модуль памяти для языковых моделей, который хранит статические паттерны вроде имен и устойчивых выражений. Результаты оказались неожиданными: рассуждения улучшились на 5 пунктов (бенчмарк BBH), код на 3 (HumanEval), а фактологические тесты — только на 3-4 пункта (MMLU, CMMLU).

Идея Engram проста: не заставлять модель каждый раз "вычислять" знакомые сочетания токенов. Чтобы распознать "Диана, принцесса Уэльская", обычная LLM прогоняет токены через несколько слоев внимания — по сути реконструируя знание, которое можно просто хранить в таблице. Engram смотрит на последние 2-3 токена и мгновенно достает из таблицы готовое представление — например, встретив "Александр Македонский", сразу выдает эмбеддинг полководца. Но если речь о соседе Александре, модуль это поймет и приглушит подсказку.

Парадокс с рассуждениями объясняется просто. Анализ через LogitLens показал: когда память берет на себя статические паттерны, ранние слои модели освобождаются от рутинной работы. Фактически модель становится "глубже" — слой 5 с Engram выдает представления, эквивалентные слою 12 без него. Эта дополнительная глубина достаётся сложным задачам.

Эксперименты проводились на модели с 27 миллиардами параметров (3,8 миллиарда активных). При равных параметрах и вычислительных затратах Engram-версия обошла обычную MoE-модель практически во всех тестах. Авторы также обнаружили U-образный закон: оптимально отдавать 75-80% "разреженного бюджета" на MoE-экспертов и 20-25% на память — перекос в любую сторону ухудшает результат.

Бонусом улучшился длинный контекст: когда локальные зависимости уходят в память, внимание фокусируется на глобальных связях. На тесте Multi-Query NIAH точность выросла с 84,2 до 97,0.

Интересно, что работа вышла на фоне слухов о возможном релизе DeepSeek V4 в январе-феврале. Так что скоро мы можем узнать, использовали ли китайцы свою технологию на практике или только обкатывают ее для будущих поколений.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.