Pull to refresh
16K+
2
Лина Бессонова@linabesson

metabolic AI dev / разраб метаболического ИИ 🇷🇺

3,9
Rating
26
Subscribers
Habr CareerHabr Career
Send message

Все нижние оценки в работе тривиальны — «больше или равна нулю». По таким теоремам можно утверждать только, что верхняя граница Sessa не хуже, но нельзя утверждать, что Transformer или Mamba действительно затухают быстрее. Чтобы доказать преимущество, нужны нижние оценки для оппонентов того же порядка или хуже. Их нет.

Power-law tails O(\ell^{-\beta}) при 0 < \beta < 1 — это верхняя граница, а не достигаемая скорость. По одной верхней границе нельзя сравнивать архитектуры.

Сложность Sessa: forward-attention O(T^2 \cdot D) + feedback-attention O(T^2 \cdot D) + torch.linalg.solve_triangular O(T^2 \cdot D) (mixer.py, строки 147–156, 248–256). Это тяжелее обычного трансформера. При этом квадратичная сложность подаётся как мотивация ухода от трансформера. Где выигрыш по сложности?

Forward-ветка Sessa — это обычный multi-head causal self-attention с RoPE, GQA и опциональным FlashAttention (from flash_attn import flash_attn_func, mixer.py, строка 6). То есть Sessa не «альтернатива трансформерам», а трансформер плюс ещё один attention-блок в feedback. Заголовок статьи технически некорректен.

В abstract на arXiv заявлено: «across matched experiments, Sessa achieves the strongest performance on long-context benchmarks». В Хабр-статье автор пишет: «в ближайших планах обучить модель на несколько миллиардов параметров и посмотреть». Это прямое противоречие самому себе. Где experiments, на которых построено заявление в abstract?

«Универсальная теорема аппроксимации для отображения последовательности в последовательность» подаётся как дополнительный результат для Sessa. Универсальная аппроксимация для многослойных SSM с нелинейностями уже доказана: Wang & Xue, 2023, arXiv:2309.13414. Какова новизна именно для Sessa относительно этого результата?

В статье вообще отсутствуют ссылки на ключевые первоисточники: Vaswani et al., 2017 (Transformer); Gu & Dao, 2023, arXiv:2312.00752 (Mamba); Gu et al., 2022 (S4); Su et al., 2021 (RoPE — используется в вашем коде); Yun et al., 2019 (universal approximation для трансформера). Для исследовательской работы это серьёзный пропуск.

В разделе «Память» все сравнения проводятся в специально подобранных режимах: «диффузный режим» для Transformer и «failed freezing time» для Mamba. Цитата из самой статьи: «Потому что можно подобрать такие параметры, при которых каждая из них будет лучше другой, или наоборот». То есть это не доказательство превосходства, а выбор худшего случая для оппонентов.

Тезис «трансформеру для универсальной аппроксимации необходим именно внешний APE» — это пересказ теоремы 3 из Yun et al., 2019 (arXiv:1912.10077). Без ссылки на первоисточник.

В статье утверждается: «Sessa, как и Mamba, может кодировать APE внутри себя без явных таблиц или экстраполяции, в отличие от трансформера». Однако в sessa/mixer.py, строки 91–96 и 234–239, явно реализован RoPE, и параметр use_forward_rope=True стоит по умолчанию. RoPE — это позиционное кодирование (Su et al., 2021, arXiv:2104.09864). То есть Sessa кодирует позицию явно, как и любой современный трансформер, а не «эмерджентно, как Mamba».

Прочитала статью, покопалась в репо, несколько технических вопросов и замечаний по существу:

В requirements.txt указан только tqdm>=4.0. PyTorch в зависимостях отсутствует, хотя в README репозиторий заявлен как «Official PyTorch implementation». При pip install -e . в чистом окружении импорт упадёт. https://github.com/LibratioAI/sessa/blob/main/requirements.txt

в 5 пункте сугубо технические термины, а путь в Минцифры лежит с патентом на изобретение) мы пока на формальной экспертизе в фипс.

а с чего человек, который пишет на Хабр статьи, обязан считаться с мнением анонимов? странные у вас критерии, конечно. Мне казалось, достаточно подкреплять свою точку зрения источниками и собственными работами/примерами для этого

  1. сами 2) в команду никто не нужен сейчас 3) госпрограммы и гранты после патентования 4) смотри пункт 3 5) ризонинг без механизма внимания, неограниченное контекстное окно, уровень рассуждения HLAI а может и больше

что вы, искренний интерес к вашему профессиональному опыту. но раз его у вас нет, то и конструктивного общения на равных вам предложить не смогу) спасибо за ваше время и внимание к нашим работам

пока только в фипс с заявками на изобретение и на регистрацию эвм, минцифры-то тут как поможет? касательно обучения - да нет, на 24 млн параметров обучим где-то к концу августа

за два года вы написали 304 комментария и ни одной интересной статьи, напомните, по какой причине мне и читателям следует считаться с вашим мнением?

я нашла на странице со статьей и комментариями 7 упоминаний слова “лучше”, и все они в комментах. Мы пишем, что наша архитектура ДРУГАЯ, и что российский ИИ с нашей точки зрения может и должен отойти от парадигмы трансформеров, чтобы получить ДРУГОЕ качество рассуждений (без конфабуляций, галлюцинаций, катастрофического забывания, с курированными датасетами для обучения). Я не знаю, лучше это трансформеров или хуже, время покажет.

в процессе патентования, но надо же как-то проявляться.А почему сразу резать по парадигме лучше или хуже? Трансформеры хороши в одном, когнитивные архитектуры в другом. Мы видим свой путь как российская мультимодальная модель искусственного интеллекта, построенная без голов внимания, собранная и обученная в РФ.

ничего плохого в перемножении матриц, и наша архитектура потенциально пригоднее для большинства юзкейсов в областях, где нужна не только логика)

так вы спросите авторов, которые пишут эти “забавные многообещающие модельки”, почему они по конференциям со статьями ходят, а не код пишут и датасеты собирают) я-то откуда знаю. Мы в своем процессе) пока 10 доменов модель выучила, вот что собрали, то подали в патент

заинтересовало, со специалистом какого уровня имею дело. столько заявлений и ни одной даже мало-мальски интересной сообществу публикации… как жаль.

нет) в статье о моем подходе, если вы не согласны с ним, ваше право) а с вашей практикой ознакомиться не удалось - на Хабре только комментарии, материалов нет)

жаль с вашей точкой зрения и вашим подходом не могу ознакомиться, на Хабре только ваши комментарии и ни одного поста или статьи.

спорить конкретно с вами имею минимум желания) а для формирования личности человеку нужна сенсорика, социальная среда, курированное обучение, механизмы обработки информации, непрерывность идентичности и еще несколько вещей) а не колоссальные объемы информации.

Information

Rating
1,265-th
Location
Нижний Новгород, Нижегородская обл., Россия
Registered
Activity

Specialization

ML разработчик, ai dev
Средний
Английский язык
Алгоритмы и структуры данных
Python
Redis
FastAPI
PostgreSQL
Kubernetes
REST
Docker