Comments 4
Отличный анализ, обзор архитектур ИНС, и их перспектив, спасибо! Странно, что мало откликов читателей. Похоже только когда лопнет пузырь чисто трансформерных ЯМ только тогда бонзы от индустрии, и массы обратят внимание на подобные архитектурные решения, более приближенные к когнитивной. Как то делал собственный прогноз, и предполагал такой возврат к рекуррентности - Mamba частично использует ее. Следующий этап возможно переход к энергоэффективным, истинно рекуррентным, нейроморфным решениям. В этой же нейроморфной парадигме возможно решение самой продвинутый возможности мозга, особенно при решении творческих задач - морфогенеза, когда нейросети могут менять свою архитектуру под воздействием трудной решаемой задачи, т.е. меняет не только веса связей синапсов (аналог STDP) по ходу ее решения, но и строит новые и уничтожает некоторые старые синаптические связи (аналог синаптогенеза), и возможно подключать новые нейроны (аналог нейрогенеза), т.е. на полную использовать аналог нейропластичности мозга на всех уровнях. Как-то так на примере открытия периодического закона Менделеевым)
Спасибо!
Вы смотрите уже на следующий уровень. MoE и SSM - это все еще борьба внутри парадигмы статичных архитектур. Ваш тезис о морфогенезе - это переход к сетям, где сама архитектура становится переменной, оптимизируемой под задачу.
Но здесь нас ждет новый демон. Если у Трансформера есть проблема сложности (O(n²)), то с архитектурной пластичностью у нас будет проблема стабильности: как система, перестраивая себя, не обрушит собственную структуру?
Пузырь Трансформеров лопнет не просто из-за их цены. Он лопнет, когда появится первая система, способная не просто выучить решение, а вырастить под него архитектуру.
Вы правильно пишете, но Mamba - это и есть SSM (с приставкой Selective) :)
И там не частичная рекуррентнось, а что ни на есть самая полная.
Не вижу, если честно, элегантности в решении этой проблемы с MoE. Как будто попытка убрать симптомы болезни за счёт раздувания контекстного окна.
Вот SSM это тема, жаль, что работы по этим моделям не так сильно ведутся, а достойные статьи отбраковываются по надуманным причинам, лишь бы олигополия компаний, которые вложились по-крупному в трансформеры, не рухнула. (Привет, Mamba).
Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера