Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг
Средний
4 мин
Кейс

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито.
Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.