Да, фиксированный размер состояния делает точный retrieval сложной задачей. Собственно поэтому существует большое количество модификаций, в которых так или иначе развивается gating-варианты: чтобы не "перегрузить" состояние, что-то забывается, важное сохраняется. Кстати в основе GatedDeltaNet именно такие идеи.
Тесты на needle in a haystack проверяют базовую способность к точному поиску/копирования из контекста, это кажется важной способностью современных llm, поэтому совсем уж абсурдным тест назвать нельзя.
Спасибо за вопрос.
Да, фиксированный размер состояния делает точный retrieval сложной задачей. Собственно поэтому существует большое количество модификаций, в которых так или иначе развивается gating-варианты: чтобы не "перегрузить" состояние, что-то забывается, важное сохраняется. Кстати в основе GatedDeltaNet именно такие идеи.
Тесты на needle in a haystack проверяют базовую способность к точному поиску/копирования из контекста, это кажется важной способностью современных llm, поэтому совсем уж абсурдным тест назвать нельзя.