Comments / Profile of linabesson / Habr

Лина Бессонова@linabesson

metabolic AI dev / разраб метаболического ИИ 🇷🇺

3,9

Rating

Subscribers

Habr Career

ProfileArticles20Posts3News5Comments90

Как я создал альтернативу трансформерам

linabesson Apr 27 at 19:35

Все нижние оценки в работе тривиальны — «больше или равна нулю». По таким теоремам можно утверждать только, что верхняя граница Sessa не хуже, но нельзя утверждать, что Transformer или Mamba действительно затухают быстрее. Чтобы доказать преимущество, нужны нижние оценки для оппонентов того же порядка или хуже. Их нет.

Power-law tails $O(\ell^{-\beta})$ при $0 < \beta < 1$ — это верхняя граница, а не достигаемая скорость. По одной верхней границе нельзя сравнивать архитектуры.

Сложность Sessa: forward-attention $O(T^2 \cdot D)$ + feedback-attention $O(T^2 \cdot D)$ + torch.linalg.solve_triangular $O(T^2 \cdot D)$ (mixer.py, строки 147–156, 248–256). Это тяжелее обычного трансформера. При этом квадратичная сложность подаётся как мотивация ухода от трансформера. Где выигрыш по сложности?

Forward-ветка Sessa — это обычный multi-head causal self-attention с RoPE, GQA и опциональным FlashAttention (from flash_attn import flash_attn_func, mixer.py, строка 6). То есть Sessa не «альтернатива трансформерам», а трансформер плюс ещё один attention-блок в feedback. Заголовок статьи технически некорректен.

В abstract на arXiv заявлено: «across matched experiments, Sessa achieves the strongest performance on long-context benchmarks». В Хабр-статье автор пишет: «в ближайших планах обучить модель на несколько миллиардов параметров и посмотреть». Это прямое противоречие самому себе. Где experiments, на которых построено заявление в abstract?

Как я создал альтернативу трансформерам

linabesson Apr 27 at 19:34

«Универсальная теорема аппроксимации для отображения последовательности в последовательность» подаётся как дополнительный результат для Sessa. Универсальная аппроксимация для многослойных SSM с нелинейностями уже доказана: Wang & Xue, 2023, arXiv:2309.13414. Какова новизна именно для Sessa относительно этого результата?

В статье вообще отсутствуют ссылки на ключевые первоисточники: Vaswani et al., 2017 (Transformer); Gu & Dao, 2023, arXiv:2312.00752 (Mamba); Gu et al., 2022 (S4); Su et al., 2021 (RoPE — используется в вашем коде); Yun et al., 2019 (universal approximation для трансформера). Для исследовательской работы это серьёзный пропуск.

В разделе «Память» все сравнения проводятся в специально подобранных режимах: «диффузный режим» для Transformer и «failed freezing time» для Mamba. Цитата из самой статьи: «Потому что можно подобрать такие параметры, при которых каждая из них будет лучше другой, или наоборот». То есть это не доказательство превосходства, а выбор худшего случая для оппонентов.

Как я создал альтернативу трансформерам

linabesson Apr 27 at 19:33

Тезис «трансформеру для универсальной аппроксимации необходим именно внешний APE» — это пересказ теоремы 3 из Yun et al., 2019 (arXiv:1912.10077). Без ссылки на первоисточник.

Как я создал альтернативу трансформерам

linabesson Apr 27 at 19:33

В статье утверждается: «Sessa, как и Mamba, может кодировать APE внутри себя без явных таблиц или экстраполяции, в отличие от трансформера». Однако в sessa/mixer.py, строки 91–96 и 234–239, явно реализован RoPE, и параметр use_forward_rope=True стоит по умолчанию. RoPE — это позиционное кодирование (Su et al., 2021, arXiv:2104.09864). То есть Sessa кодирует позицию явно, как и любой современный трансформер, а не «эмерджентно, как Mamba».

Как я создал альтернативу трансформерам

linabesson Apr 27 at 19:33

Прочитала статью, покопалась в репо, несколько технических вопросов и замечаний по существу:

В requirements.txt указан только tqdm>=4.0. PyTorch в зависимостях отсутствует, хотя в README репозиторий заявлен как «Official PyTorch implementation». При pip install -e . в чистом окружении импорт упадёт. https://github.com/LibratioAI/sessa/blob/main/requirements.txt

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 19:25

в 5 пункте сугубо технические термины, а путь в Минцифры лежит с патентом на изобретение) мы пока на формальной экспертизе в фипс.

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 19:21

а с чего человек, который пишет на Хабр статьи, обязан считаться с мнением анонимов? странные у вас критерии, конечно. Мне казалось, достаточно подкреплять свою точку зрения источниками и собственными работами/примерами для этого

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 19:19

сами 2) в команду никто не нужен сейчас 3) госпрограммы и гранты после патентования 4) смотри пункт 3 5) ризонинг без механизма внимания, неограниченное контекстное окно, уровень рассуждения HLAI а может и больше

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 19:16

что вы, искренний интерес к вашему профессиональному опыту. но раз его у вас нет, то и конструктивного общения на равных вам предложить не смогу) спасибо за ваше время и внимание к нашим работам

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 17:59

пока только в фипс с заявками на изобретение и на регистрацию эвм, минцифры-то тут как поможет? касательно обучения - да нет, на 24 млн параметров обучим где-то к концу августа

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 17:54

за два года вы написали 304 комментария и ни одной интересной статьи, напомните, по какой причине мне и читателям следует считаться с вашим мнением?

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 16:17

я нашла на странице со статьей и комментариями 7 упоминаний слова “лучше”, и все они в комментах. Мы пишем, что наша архитектура ДРУГАЯ, и что российский ИИ с нашей точки зрения может и должен отойти от парадигмы трансформеров, чтобы получить ДРУГОЕ качество рассуждений (без конфабуляций, галлюцинаций, катастрофического забывания, с курированными датасетами для обучения). Я не знаю, лучше это трансформеров или хуже, время покажет.

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 16:04

в процессе патентования, но надо же как-то проявляться.А почему сразу резать по парадигме лучше или хуже? Трансформеры хороши в одном, когнитивные архитектуры в другом. Мы видим свой путь как российская мультимодальная модель искусственного интеллекта, построенная без голов внимания, собранная и обученная в РФ.

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 15:52

ничего плохого в перемножении матриц, и наша архитектура потенциально пригоднее для большинства юзкейсов в областях, где нужна не только логика)

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 14:37

так вы спросите авторов, которые пишут эти “забавные многообещающие модельки”, почему они по конференциям со статьями ходят, а не код пишут и датасеты собирают) я-то откуда знаю. Мы в своем процессе) пока 10 доменов модель выучила, вот что собрали, то подали в патент

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 14:28

заинтересовало, со специалистом какого уровня имею дело. столько заявлений и ни одной даже мало-мальски интересной сообществу публикации… как жаль.

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 14:20

нет) в статье о моем подходе, если вы не согласны с ним, ваше право) а с вашей практикой ознакомиться не удалось - на Хабре только комментарии, материалов нет)

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 14:18

жаль с вашей точкой зрения и вашим подходом не могу ознакомиться, на Хабре только ваши комментарии и ни одного поста или статьи.

-1

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 13:48

ну так запустите) но это будет все равно трансформер)

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

linabesson Apr 27 at 13:36

спорить конкретно с вами имею минимум желания) а для формирования личности человеку нужна сенсорика, социальная среда, курированное обучение, механизмы обработки информации, непрерывность идентичности и еще несколько вещей) а не колоссальные объемы информации.

3 4 5

Information

Specialization