Комментарии 2
Конечно, остается вопрос, насколько технология будет масштабироваться в реальных сценариях и насколько она сложна в интеграции. Но сам факт того, что появляется новое решение для этой задачи, внушает оптимизм. Буду с интересом следить за дальнейшими исследованиями и практическими применениями NSA .
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Native Sparse Attention: новый вид разреженного внимания от DeepSeek