Комментарии 1
Множители в Mamba можно подать в виде нижнетреугольной матрицы. И крайне интересно увидеть то, что вес дальнего контекста уменьшается экспоненциально всегда, так как произведение множителей (1-g) при g<1 очевидно будет стремится к нулю при росте их количества. Ну, собственно, что и было показано на практике в папире с Titans.
Это отличная архитектура как попытка поменять RNN, убрав ненужные активации, и зависимость, которая мешала паралелить, но не более того.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Mamba 2 + Transformer = Nemotron H