Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Конечно, остается вопрос, насколько технология будет масштабироваться в реальных сценариях и насколько она сложна в интеграции. Но сам факт того, что появляется новое решение для этой задачи, внушает оптимизм. Буду с интересом следить за дальнейшими исследованиями и практическими применениями NSA .
Native Sparse Attention: новый вид разреженного внимания от DeepSeek