Обновить
8K+
4
Александр Колесников@morginalium8

Изучаю ML

4,2
Рейтинг
1
Подписчики
Отправить сообщение

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели10K

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито.

Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.

Читать далее

Информация

В рейтинге
1 130-й
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Дата рождения
Зарегистрирован
Активность

Специализация

ML разработчик
Python
Английский язык
Git
Алгоритмы и структуры данных
Математика
Большие данные
PyTorch