Обновить
0
Денис Титов@t_denis

Пользователь

1
Подписчики
Отправить сообщение

Спасибо за вопрос.

Да, фиксированный размер состояния делает точный retrieval сложной задачей. Собственно поэтому существует большое количество модификаций, в которых так или иначе развивается gating-варианты: чтобы не "перегрузить" состояние, что-то забывается, важное сохраняется. Кстати в основе GatedDeltaNet именно такие идеи.

Тесты на needle in a haystack проверяют базовую способность к точному поиску/копирования из контекста, это кажется важной способностью современных llm, поэтому совсем уж абсурдным тест назвать нельзя.

Информация

В рейтинге
Не участвует
Откуда
Долгопрудный, Москва и Московская обл., Россия
Зарегистрирован
Активность