Обновить
4
7.1

Пользователь

Отправить сообщение

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели7K

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Читать далее

Информация

В рейтинге
812-й
Зарегистрирован
Активность