Pull to refresh
0
Денис Титов@t_denis

Пользователь

1
Subscribers
Send message

Спасибо за вопрос.

Да, фиксированный размер состояния делает точный retrieval сложной задачей. Собственно поэтому существует большое количество модификаций, в которых так или иначе развивается gating-варианты: чтобы не "перегрузить" состояние, что-то забывается, важное сохраняется. Кстати в основе GatedDeltaNet именно такие идеи.

Тесты на needle in a haystack проверяют базовую способность к точному поиску/копирования из контекста, это кажется важной способностью современных llm, поэтому совсем уж абсурдным тест назвать нельзя.

Information

Rating
Does not participate
Location
Долгопрудный, Москва и Московская обл., Россия
Registered
Activity