Search
Write a publication
Pull to refresh
27
0.1
Liubomyr Horbatko @Flokis_guy

User

Send message

У семена больше, не зря у него крепкая мужская дружба, моряк моряка видит издалека)

Мне кажется, что градиентный бустинг проще всего понимать обобщенного через ряд Тейлора, если с ним базово все понятно - то и с бустингом проблем не будет, все остальное это детали работы с определенными моделями.

Более чем уверен, что эти 90% потом идут в отделение к примеру, и там их проблемы решают, но, а так как они не обратились к оператору - то их проблемы решены!

Потому что им нужно, что бы был опыт 5 лет.

Сейчас одно из лучших решений это rtx5090.

Нет, это любое кодирующее устройство. Да, и, англицизмы никто не отменял.

Я имел ввиду следующее:

KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:

{\small f_\text{KAN}(\mathbf{x}) = \sum_{i_L=1}^{n_L} \phi_{L-1, i_L, i_{L-1}} \left(   \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-2, i_{L-1}, i_{L-2}} \left(   \cdots \left(   \sum_{i_1=1}^{n_1} \phi_{1, i_2, i_1} \left(   \sum_{i_0=1}^{n_0} \phi_{0, i_1, i_0}(x_{i_0})  \right)   \right)     \right)   \right)}

Где каждая сумма (слой) \sum_{i_l=1}^{n_l}  \phi_{l,i_{l+1},i_l}(x_{i_l}) представляет собой преобразование подобного рода:

\mathbf{x}_{l+1} = \sum_{i_l=1}^{n_l}  \phi_{l,i_{l+1},i_l}(x_{i_l}) \\[20pt] \\= \left[ \begin{array}{cccc}    \phi_{l,1,1}(x_{1}) & + & \phi_{l,1,2}(x_{2}) & + \cdots + & \phi_{l,1,n_l}(x_{n_l}) \\    \phi_{l,2,1}(x_{1}) & + & \phi_{l,2,2}(x_{2}) & + \cdots + & \phi_{l,2,n_l}(x_{n_l}) \\    \vdots &  & \vdots & \ddots & \vdots \\    \phi_{l,n_{l+1},1}(x_{1}) & + & \phi_{l,n_{l+1},2}(x_{2}) & + \cdots + & \phi_{l,n_{l+1},n_l}(x_{n_l}) \\    \end{array} \right]

Двухслойный MLP имеет следующую формулу:

f_\text{MLP}(\mathbf{x}) = \mathbf{W}_2 \cdot \sigma(\mathbf{W}_1 \cdot \mathbf{x}+\mathbf{b}_\text{in})+\mathbf{b}_\text{out}

И его мы можем представить как:

Первый слой:

\mathbf{x}_1 = \sum_{i_0=1}^{n_0} w_{i_1,i_0} x_{i_0} + b_{i_1} \\[20pt]  =\begin{bmatrix}     w_{1,1} x_{1} & + & w_{1,2} x_{2} & + & \cdots & + & w_{1,n_0} x_{n_0} & + & b_{1} \\     w_{2,1} x_{1} & + & w_{2,2} x_{2} & + & \cdots & + & w_{2,n_0} x_{n_0} & + & b_{2} \\     \vdots &  & \vdots &  & \ddots &  & \vdots &  & \vdots \\     w_{n_1,1} x_{1} & + & w_{n_1,2} x_{2} & + & \cdots & + & w_{n_1,n_0} x_{n_0} & + & b_{n_1}     \end{bmatrix}\\[30pt]  = \sum_{i_0=1}^{n_0} \phi_{i_1,i_0}(x_{i_0})\\[20pt]  =   \begin{bmatrix}    \phi_{1,1}(x_{1}) + \phi_{1,2}(x_{2}) + \dots + \phi_{1,n_0}(x_{n_0}) + \phi_{1,n_0}(x_{n_0}) \\[20pt]    \phi_{2,1}(x_{1}) + \phi_{2,2}(x_{2}) + \dots + \phi_{2,n_0}(x_{n_0}) + \phi_{2,n_0}(x_{n_0}) \\    \vdots \\    \phi_{n_1,1}(x_{1}) + \phi_{n_1,2}(x_{2}) + \dots + \phi_{n_1,n_0}(x_{n_0}) + \phi_{n_1,n_0}(x_{n_0})     \end{bmatrix},  \\[50pt]

И второй выходной:

f_\text{out}(\mathbf{x}_1) = \sum_{i_1=1}^{n_1} w_{i_1} \sigma(x_{i_!}) +b  \\[25pt]  = w_{1} \sigma(x_1) + w_{2} \sigma(x_2) + \cdots + w_{n_1} \sigma(x_{n_1})  +b\\[20pt]= \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) \right)

То есть двухслойный MLP мы можем представить как двухслойный KAN. Где мы его строим с помощью - \phi(x) = w*\sigma(x). Ну и очевидно, что KAN обобщает MLP на случай произвольной \phi(x) в общем случае. Единственное, что при представлении MLP в виде KAN, по определению, в первом слое -\sigma(x) = x. Собственно это и является его ограничением, так как функцию во втором слое мы задаем сами через функцию активации. Таким образом ограниченная выразительная способность MLP кроется в этом.

Статья отличная. И благодаря подобным хабр ещё торт.

В целом сравнение через выразительную способность отличное. Хотя двухслойный MLP имеет универсальную аппроксимацию в C и Lp. Ширина его при желаемой точности растет экспоненциально, а не полиномиально. Но с другой стороны, так как KAN в общем случае обобщает MLP имея произвольную функцию ϕ в сравнении с w*activation(x). Где в первом слое активация является линейной. И вот тут интересный момент, если представить MLP как двухслойный KAN, то выходит, что это и портит всю ситуацию. И тут возникает вопрос, а честно ли так сравнивать, так как линейная функция является сплайном первого порядка, но не любой сплайн это линейная функция вида w*x+b.

Менеджеры хотят кушать, а как мы понимаем их там много, ибо - бюракратия расширяется, чтобы удовлетворять потребности расширяющейся бюрократии. Вот и как следствие всякие религии появляются.

Я конечно понимаю, что статья под новичков или те, кто хотят освежить свои знания, но, все же, это все кучу раз прояснялось.

И куда интереснее прояснить моменты так, что бы читатель более интуитивно понимал их.

К примеру, вот зачем нужна кросс валидация, и есть ли гипотетический сценарий, где ее вообще можно никогда не использовать и все будет классно. Вот первую часть легко заучить, а для второй нужно немного подумать.

Вокруг проклятия размерности сейчас слишком много мракобесия. Во первых математические доказательства доказываются для синтетических равномерно распределенных данных, для модели это будет один класс, и там ничего и не нужно разделять. В реальности там есть внутри классовые корреляции, что уменьшает эффективную размерность классов, в значит получаем благословение размерности. И это кстати показывает, что корреляция между призраками не так уж и плоха, как любят ее показывать. Единственный случай где она плохая - это аналитическое решение линейной регрессии для весов, так как матрица становится вырожденной. Все остальное - бред.

По поводу лоссов, вот почему не использовать mse в логистической регрессии? Или почему не использовать 1/(x+eps)?

По поводу регуляризации, достаточно узнать что там за буква L, и тогда можно понять, что существует не только три вида.

Не нужно говорить за всех, если вам архитектура не понятна, то это не значит что другим тоже. Во первых в ее формуле нет ничего такого особенного, во вторых есть области по типу функционального анализа или цифровой обработки сигналов, за счёт которых можно под разным углом взглянуть на неё.

IMEX всегда будет иметь проблему, так как полюса на единичной окружности нарушают bibo стабильность, а это тянет за собой невозможность сходимости в l1 норме импульсный отклик, что нарушает выполнимость теоремы Винера-Леви. А так как может быть погрешность, то полюса могут улетать за единичную окружность наверх, и тогда увы, будет все плохо.

У IMEX конечно интересная особенность, но она и является проблемой. Во первых фильтр не обладает bibo устойчивостью, и кто знает, что там будет на больших последовательностях, без какой-нибудь fp64. Во вторых, из-за этого не работает теорема Винера-Леви (Wiener–Lévy theorem), а значит она вряд-ли будет обладать универсальной аппроксимацией.

Я вот люблю спрашивать, а чё это именно трансформеры, чем они так особенны. Только потому, что крупные игроки выложили достаточно денег и хайпа вокруг них? Ну вот и все остальные подъедают объедки со стола. Хотя у них ой как много проблем.

Вот к примеру исследование показывающее что трансформеры low-pass фильтр реализуют, что их ограничивает.

Далее, само PE это костыль и плата за динамичность размера. Но и тут есть кое какие теоретические и практические моменты, которые должны были в статье быть изложены. Во первых, только тренируемые APE обладают универсальной аппроксимацией. У RPE с этим проблемы. Во вторых есть очень интересные результаты, которые показывают, что на практике без PE(NPE) трансформер может опережать с PE. А самое интересное, что там же и теоретически доказано, что он может моделировать к примеру APE, а значит он обладает универсальной аппроксимацией. Так что можно интервьюеров посылать на три буквы — NPE, и говорить что PE не нужны:)

Они не обладают тогда универсальной аппроксимацией.

Что за бред. Вот если оно реально, где хоть какие-то формальные отсылки к чему-то в этой области, а не к моим снам при 38.8? Или это ещё один RAG костыль?

Стоп, но ведь его же статью одобрили модераторы, это конечно странно.

Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки!

Я больше скажу, не нужны ни свертки, ни трансформеры. Можно вернуться к истокам используя MLP и получить отличные результаты.

Если 'a' - это точка пространства, то у нее нет границ

Это работает только в дискретной топологии, там да, каждое множество и открыто и замкнуто одновременно, а значит не имеет границ, тут мы рассматриваем интервалы, то есть в нашем случае работаем с евклидовой топологией.

Следовательно, в евклидовой топологии каждая точка замкнута, но не открыта, поэтому ее граница - это она сама.

Разница между определением множеств существует. К примеру в нашем случае (a,a) является пустым множеством, поэтому не равно точке a. А вот [а,а] уже не пустое множество, и имеет в себе одну точку а, следовательно оно равно точке а.

Если мы хотим задать интервал парой границ, которые совпадают (и равны a), то он будет нулевым (пустым): a - a = 0

Этот расчет никак не влияет на то, равен интервал точке или нет, вы по сути посчитали лебегову меру в самом простом виде.

В статье допущена ошибка по которой многие утверждения выглядят бредово.

Достаточно было указать: "Мы рассматриваем только интервалы с лебеговой мерой не равной нулю". И тогда бы некоторых вопросов не было.

А так:

Второе и, пожалуй, главное, что следует уяснить. Интервал и точки - это два разных типа данных.

В чем отличие интервала от точки? В размере, - у интервала есть конечный размер, у точки нет.

Вырожденный интервал ([a,a]) по определению равен точке, а значит и точка равна ему. И имеет лебегову меру равную нулю, как и точка. Также в рамках топологии/анализа мы рассматриваем часто выпуклые множества, коим вырожденный интервал и является. Следовательно оба ваши утверждения не верны.

Поэтому (внимание!) - вопрос о том, принадлежат ли интервалу его границы - не имеет особого смысла. Я бы давал на такой вопрос ответ Неопределено, - можно считать, что принадлежит, а можно и нет.

Ну поэтому часто используют компактные множества в доказательствах, а не открытые, к примеру. Но что они понимают...

Information

Rating
5,719-th
Registered
Activity

Specialization

ML Engineer
Python
English
Maths
Pytorch
Deep Learning