Комментарии / Профиль Flokis

Liubomyr Horbatko@Flokis_guy

Пользователь

Подписчики

ПрофильСтатьи4ПостыНовостиКомментарии190

Речь не об аппроксимации, а о точном функциональном вложении конечных архитектур. Потому что фраза "Сети KAN являются MLP" говорит именно о вложении как классе функций.

Да, MLP является универсальным аппроксиматором и может аппроксимировать любую непрерывную KAN сеть на компакте с произвольной точностью. Но это утверждение про замыкание класса функций, а не про точное равенство архитектурных классов.

Плюс по поводу:

Любая KAN может быть аппроксимирована MLP с любой произвольно заданной точностью.

Если мы возьмем KAN который полностью равен функции Хевисайда, то она не может быть равномерно аппроксимирована MLP с непрерывной активацией с произвольной точностью в равномерной норме на компакте.

GigaChat 3.5 — меньше, быстрее, сильнее

Flokis_guy вчера в 12:46

Сети KAN являются MLP

Нет, некоторые KAN сети эквивалентны MLP в частном случае, но общий класс KAN шире MLP.

Что такое нейросети и как они устроены под капотом (на пальцах, с примерами на python)

Flokis_guy 26 июн в 15:58

Почему к двум. С 3 параметрами у нас будет трехмерный объект вложенный в 4-х мерное пространство. Просто визуализировать в 3-х мерном просто бессмысленно в этом случае, и я не понимаю почему автор это делает. Это аналогично тому, что мы берём f(x), и визуализируем мы в двумерном пространстве, но объект имеет нулевую меру лебега в двумерном пространстве. Но мы же не визуализируем его в одномерном пространстве.

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Flokis_guy 20 июн в 09:36

Аналогия с электрокарами как раз хорошо показывает проблему сравнения.

Электрокар можно честно сравнивать с автомобилем с ДВС по результатам: разгон, запас хода, стоимость владения, ремонтопригодность, энергопотребление, ресурс, цена и так далее. Но было бы странно говорить, что электрокар лучше ДВС-авто просто потому что у него меньше цилиндров. У него вообще другая силовая установка.

Так же и здесь, если TAPe это сильное преобразование входных данных в котором уже зашита значительная часть распознающей логики, то сравнение "у нас меньше 100 тыс. параметров, а у YOLO/DINO миллионы или миллиарды" не очень честное. Параметры нейросети в таком случае не описывают сложность всей системы.

Поэтому наиболее корректное сравнение это сравнение системы с системой: качество, задержка обработки, CPU/GPU, RAM, время обучения, стоимость разметки, устойчивость к смене предметной области, воспроизводимость, размер и сложность всего конвейера обработки, а не только количество обучаемых параметров в ML-части.

По поводу того, что вы сохранили принципы ML это тоже требует уточнения. Система с ручным или алгоритмическим преобразованием признаков и небольшой обучаемой моделью поверх вполне может считаться ML-системой. Но тогда нужен анализ вклада компонентов: TAPe без ML, TAPe + линейная модель, TAPe + MLP, обычный ML без TAPe, сравнение с одинаковыми наборами данных и одинаковым протоколом.

Иначе остается открытым вопрос, а что именно дает качество, обучаемая модель или само TAPe-преобразование? Где доказательство, что нейросеть поверх TAPe действительно необходима, а не просто оформляет уже почти готовое решение?

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Flokis_guy 19 июн в 10:52

Насколько я понимаю, ваше архитектурное решение это собственный сильный препроцессинг. Отсюда и получаются красивые < 100k параметров и SOTA. Если у вас большая часть интеллекта зашита в TAPe-преобразовании, то сравнение с YOLO/DINO не особо честное.

Каково это — работать с Fable 5 (Mythos)

Flokis_guy 15 июн в 20:07

Если я не ошибаюсь, то open mythos не имеет отношения к антропиковскому в плане архитектуры.

Параллельность RNN?

Flokis_guy 4 июн в 15:02

Возможно, возникла некоторая путаница, поскольку само определение термина Quasi-LPV также эволюционировало. В данном случае я опираюсь на работу “On the State-Space Realization of LPV Input-Output Models: Practical Approaches”. То есть рассматривается система вида:

$x_{t+1}=A(\rho_t)x_t+B(\rho_t)u_t$ $y_t=C(\rho_t)x_t+D(\rho_t)u_t$

где

$\rho_t=\phi(x_t,u_t,y_t)$

И Transformer, и Mamba и другие подходят под это определение. Единственное отличие состоит в том, что в Transformer и Sessa состояние будет расти с длиной входной последовательности.

RNN также является системой такого типа. Рассмотрим RNN:

$x_{t+1}=\tanh(W_xx_t+W_uu_t+W_yy_t+b)$

Обозначим

и введем

$\rho_{t,i}=\frac{\tanh(z_{t,i})}{z_{t,i}}$

Тогда

$\tanh(z_t)=D(\rho_t)z_t$

Где $D(\rho_t)$ просто диагональная матрица.

и получаем

$x_{t+1} = D(\rho_t)W_xx_t + D(\rho_t)W_uu_t + D(\rho_t)W_yy_t + D(\rho_t)b$

То есть в случае классической RNN:

$x_{t+1}=A(\rho_t)x_t+B(\rho_t)u_t+c(\rho_t)$

где

$\rho_t=\phi(x_t,u_t,y_t)$

Элемент можно убрать, если рассматривать систему через расширенное состояние.

И выход

соответствует

Параллельность RNN?

Flokis_guy 4 июн в 11:46

Все вышеперечисленные архитектуры являются Quasi-LPV системами, так как они так или иначе зависят от входа или состояния. Но если Transformer и Sessa имеют рост состояния который линейно растет с длиной входа, то Mamba, RWKV, linear attention, DeltaNet и прочие линейные варианты по асимптотике имеют фиксированное состояние. RNN зависит от предыдущего состояния, и здесь появляется ParaRNN, где можно получить и параллельность, и зависимость от состояния. Однако в итоге все не так однозначно.

Особенно это заметно на контексте в 1M токенов: у нас нет нормального количества качественных и связных данных для эффективного обучения на таком и более длинном контексте. Поэтому нужно, чтобы модель могла нормально работать с длинным контекстом даже при минимальном количестве таких данных. Отсюда возникают два требования: вычислительная эффективность и качество.

Рост состояния напрямую помогает обойти часть ограничений, но сложность при этом растет, хотя память можно оставить линейной. Mamba, RWKV, linear attention, DeltaNet и другие архитектуры, которые бьют Transformer на длинном контексте за счет асимптотики, из-за той же асимптотики теряют эффективность в качестве из-за конечного состояния. У параллельных RNN состояние также фиксировано, но остается вопрос: даст ли что-то зависимость от предыдущего состояния.

В итоге совсем не очевидно, что именно стоит использовать. Например, лично я скорее за то, чтобы в целом использовать модели с квадратичной сложностью. Скорость вычислений так или иначе можно наращивать, а вот фундаментальные ограничения архитектур с конечным состоянием можно обойти только за счет все большего объема данных с большей эффективной длиной контекста, что, как мне кажется, значительно сложнее.

Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации

Flokis_guy 20 мая в 09:37

Теорема об универсальной аппроксимации не лжет математически, она лжет концептуально. Да, плоская и бесконечно широкая сеть может выучить всё. Но она сделает это через тупую зубрежку.

С чего бы это? Если истинная функция, которая обобщает информацию и дает модели "интеллект", находится в пространстве непрерывных функций, то UAT нормально работает. То, что это теорема существования, факт, но при такой общности невозможно фундаментально требовать большего, чем теорему существования.

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

Flokis_guy 19 мая в 12:40

Да, MoE это дешевый в плане вычислений на практике эквивалент dense MLP, и любой MoE можно практически с идеальной точностью переписать как MLP. Но MoE очень удобен для анализа гроккинга на претрейне, как в исследовании "Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test". По сути, если у семантически близких примеров маршруты через экспертов становятся более похожими, то мы получаем гроккинг в данной области, то есть обобщение. А так как это эквивалент MLP, то это теоретически может работать и на обычной модели. А значит не факт, что нам нужно куча моделей для каждой области.

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Flokis_guy 19 мая в 12:23

Видимо, мы плохо друг друга поняли, потому что в моём понимании выразительность это способность что-то выразить. В данном случае это сводится к тому, что функция может аппроксимировать. И в случае трансформера он не может аппроксимировать всё.

Но ок, буду отвечать относительно того, как вы определили:

Что такое выразительность обычного трансформера на практике? Это способность длины вектора неконтролируемо расти по мере прохождения через десятки слоев.

Неконтролируемый рост с точки зрения математики, это тот случай, когда у нас значения улетают в бесконечность. Но есть одно но: на практике мы всегда работаем с трансформером, который имеет ограниченное количество слоёв. И если мы возьмём функцию вида: принимаем x, получаем нормы Q и K с первого по второй слой, с первого по третий слой и так далее, то она всегда будет глобально ограничена сверху и снизу. То есть при последовательности, стремящейся к бесконечности, мы всегда имеем стабильность BIBO. Да, значение может быть большим, но всё равно ограниченным.

Softmax от таких огромных логитов превращается в жесткий argmax.

В attention как раз важно больше не абсолютное значение логита, а относительное. Поэтому, хоть логит и будет равен миллиарду, если разброс маленький, то всё ок. Абсолютное значение важно для стабильности оптимизации.

По поводу того, что я писал про выразительность, суть в том, что если мы берём классическую QK-нормализацию с обучаемой температурой, даже в виде матрицы, то выразительность падает. То есть данная система не может быть плотной в классе функций обычного QK, она не может, например, обеспечить равномерную аппроксимацию. И это на себя берут MLP и последующие слои, если в этом появляется надобность.

В контексте оптимизации QK-нормализация убирает градиент вдоль q и k, в отличие от оригинального трансформера. А в моей архитектуре вообще бьёт напрямую по flexible selective retrieval.

Я лично считаю, что вместо QK-нормализации лучше ввести прямой контроль на нормы матриц весов в Q и K (pre-LN очевидно у нас используется), сделать нормы обучаемыми. Только там на масштаб температуры влияет ещё и размерность, поэтому нужно параметризовать так, чтобы они не участвовали. По выразительности это эквивалентно, даёт ещё один путь градиентам. А при обучении просто ввести регуляризацию. В итоге это будет эвристика, как и QK-нормализация, но с равной выразительностью относительно классического трансформера.

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Flokis_guy 19 мая в 10:04

Обучаемая температура при QK-нормализации крайне важная вещь, потому что без неё трансформер будет находиться в постоянном жёстком диффузном режиме. Да, и без QK-нормализации мы можем найти глобальную разницу между максимальным и минимальным логитом, и это значение будет меньше бесконечности, то есть в любом случае будет последовательность, где порядок весов 1/n будет доминировать. Но при QK-нормализации без температуры разница будет не выше 2, и это очень сильное ограничение: один вход уже не сможет забрать при длине, равной 10, больше половины.

Да, он сможет работать, извлекать информацию, но эффективная длина контекста будет намного меньше, чем у обычного трансформера.

Также стоит отметить, что пока температура является скаляром, мы накладываем ограничение, то есть обычный трансформер в этом плане обладает большей выразительностью. Даже если сделать его матрицей, модель становится выразительнее, но всё равно уступает классическому трансформеру.

Как я создал альтернативу трансформерам

Flokis_guy 9 мая в 06:34

Понимаю, в любом случае спасибо. Просто поправил кое-какие моменты.

Как я создал альтернативу трансформерам

Flokis_guy 8 мая в 10:36

Мне кажется, надо было тут делать упор не на доказательства, а в целом и затем просто ссылку на доказательства теорем. Архитектура, теоремы и подход в целом интересный и надо было его преподнести иначе. И заодно надо было сравнить со схожими архитектурами, так как предложенная в общем смысле перекликается решением той же проблемы, что и OpenMythos.

Возможно. Но я сам только несколько дней назад о нем узнал. Да и сравнение с академической точки зрения очевидно нужно было делать с бейзлайнами. А статья это просто пересказ с сильными упрощениями и более понятной интуицией, нежели само исследование, а практически все было уже написано задолго до апреля.

это означает, что система считается линейной, нет сложных нелинейных взаимодействий, хотя в реальности B зависит от x и есть нелинейности (tanh, softmax), поэтому доказательства следует рассматривать как идеализацию динамики.

Это относится только к fixed-routing, да, там я рассматривал случай с замороженными параметрами, как диагностический слой, чтобы изолировать механизм памяти, но основные результаты идут как раз для end-to-end, где ничего не заморожено.

Так же вводится ограничение на γ: 0 < γmax<1. Это нужно чтобы (I−B)^−1 существовала

Это нужно для BIBO стабильности, которая рассматривается для бесконечных последовательностей. Для конечных последовательностей $(I−B)^{−1}$ будет существовать, даже если $γ_{max}>1,$ так как она будет конечной строго нижнетреугольной матрицей, но работа за пределами обучающих последовательностей довольно важна, поэтому и нужно ограничение.

Вводится предположение, что у матрицы B есть собственные значения, плотно расположенные около 1. Формально спектральный радиус близок к 1 и плотность собственных значений не дискретная. Это означает, что система «почти не затухает».
Это важное предположение. Если eigenvalues далеко от 1 → экспоненциальное затухание, eigenvalues около 1 → медленное (power-law).

Конкретно такого я не вводил. Собственные значения у конечной нижнетреугольной матрицы B всегда будут равны 0. Ну, собственно, как и простой $y_t=ay_{t−1}+u_t$ на конечном горизонте тоже может быть записан через строго нижнетреугольную матрицу, у которой собственные значения равны 0.

Я, конечно, использовал в статье данную интуицию как подводку, но на практике нужно быть с этим аккуратными, так как анализ через полюса работает именно для LTI систем. То есть полюса меньше 1 означают экспоненциальное затухание, 1 означает линейный рост, больше 1 означает экспоненциальный рост. Но для не LTI это не работает.

Так же, при доказательствах часто полагается, что статистические свойства не зависят от позиции и система «однородна по времени». Это упрощает анализ: B(t,i)≈B(t−i).

Нет, как раз таки все оценивается для общего случая, где зависимость идет не только от лага.

Так же неявно предполагается, что (I−B) обратима. Это требует отсутствия сингулярности и собственных значений = 1, иначе система не имеет решения или имеет бесконечно много решений.

На любом фиксированном конечном контексте обратима автоматически, так как элементы на диагонали равны 1.

Теорема про selective retrieval заключается в том, что существуют такие B, где некоторые собственные значения ≈ 1 и соответствующие компоненты не затухают. Это означает, что модель может держать важную информацию бесконечно долго.

Как я и писал, собственные значения тут не могут быть равны 1, они всегда равны 0. Selective retrieval возникает не из спектра а из аккумуляции путей в ряде Неймана.

Касаемо OpenMythos, да, если рассмотреть его миксер и кое-как его изменить, то его можно вполне сравнивать с Sessa, где Sessa получает результат после бесконечного применения циклов, но в конечной структуре. Но идея OpenMythos, конечно, не нова, и вообще подобные архитектуры у меня лично вызывают большой скепсис, потому что это лишняя трата ресурсов, так как можно за то же количество добавить слои и получить большую выразительность. Да, мы получаем регуляризацию, но стоит ли она того, если мы тренируем какую-нибудь многомиллиардную модель на 10т токенов. На маленьких данных, спору нет, это сильно решает.

Хассабис: AGI, скорее всего, построят поверх нынешних языковых моделей

Flokis_guy 30 апр в 07:48

Но у Jepa тоже есть ошибки в математическом подходе

Интересно, насколько я смотрел исследование "LLM-JEPA" вроде все норм, или ошибки в плане фундаментальные?

Как я создал альтернативу трансформерам

Flokis_guy 28 апр в 09:43

Иногда да, но семь комментариев подряд это слишком для Хабра, да и контекст этой дискуссии немного отличается от контекста статьи. На технические вопросы я всё же ответил, но здесь это выглядит не как попытка упростить обсуждение, а скорее как серия однотипных претензий после того, как я под их статьёй попросил привести доказательства работы их "суверенного ИИ".

-1

Как я создал альтернативу трансформерам

Flokis_guy 27 апр в 20:18

В статье утверждается: «Sessa, как и Mamba, может кодировать APE внутри себя без явных таблиц или экстраполяции, в отличие от трансформера». То есть Sessa кодирует позицию явно, как и любой современный трансформер, а не «эмерджентно, как Mamba».

Рекомендую вам прочитать исследование: RoPE в forward части с этим никак не связан.

«Универсальная теорема аппроксимации для отображения последовательности в последовательность» подаётся как дополнительный результат для Sessa. Универсальная аппроксимация для многослойных SSM с нелинейностями уже доказана: Wang & Xue, 2023, arXiv:2309.13414. Какова новизна именно для Sessa относительно этого результата?

Я ничего про новизну и не утверждал. Кстати, я бы вам рекомендовал ознакомится с этой работой, на которую вы ссылаетесь, она не будет работать для Sessa напрямую. Если бы все было так просто, я бы руками не доказывал UAT, а просто бы сослался на готовый результат.

Все нижние оценки в работе тривиальны — «больше или равна нулю». По таким теоремам можно утверждать только, что верхняя граница Sessa не хуже, но нельзя утверждать, что Transformer или Mamba действительно затухают быстрее. Чтобы доказать преимущество, нужны нижние оценки для оппонентов того же порядка или хуже. Их нет.

Строгие end-to-end нижние оценки в общем виде получить нельзя; в статье я, кстати, это отметил.

Power-law tails $O(\ell^{-\beta})$ при $0 < \beta < 1$ — это верхняя граница, а не достигаемая скорость.

В исследовании я как раз привожу конструкцию, показывающую, как этой скорости можно достичь на практике.

В разделе «Память» все сравнения проводятся в специально подобранных режимах: «диффузный режим» для Transformer и «failed freezing time» для Mamba. Цитата из самой статьи: «Потому что можно подобрать такие параметры, при которых каждая из них будет лучше другой, или наоборот». То есть это не доказательство превосходства, а выбор худшего случая для оппонентов.

Это выбор равного режима для всех, как раз потому что в общем виде можно подобрать такие параметры, при которых каждая из них будет лучше другой, или наоборот.

Да, и слабо верится, что человек не сформулировал все эти тезисы в одном комментарии, а разбросал их по разным с разницей в секунды-минуту, хотя на каждый пришлось бы потратить какое-то время. Особенно заметно из-за кавычек-ёлочек. Не поделитесь промптом для LLM?)

Как я создал альтернативу трансформерам

Flokis_guy 27 апр в 20:02

Я попрошу вас не устраивать спам-атаку в комментариях. Это дурной тон на Хабре. Я понимаю, что у вас могут быть личные обиды из-за моих комментариев под вашей статьёй, но всё же@moderator.

Слепота комьюнити. Как мы проспали монополизацию ИИ под восторг от метрик

Flokis_guy 8 апр в 17:42

Посыл понятен, и, конечно обидно, что это не достается обычным людям, но все же это их деньги, и именно им решать, кому что давать.

Anthropic тестирует новую сверхмощную модель и готовится к IPO

Flokis_guy 27 мар в 20:26

Очередной прогрев на инвестиции. Уже сколько раз они подобное говорили.

2 3 ...

9 10

Информация

Специализация