Comments 6
Статья отличная. И благодаря подобным хабр ещё торт.
В целом сравнение через выразительную способность отличное. Хотя двухслойный MLP имеет универсальную аппроксимацию в C и Lp. Ширина его при желаемой точности растет экспоненциально, а не полиномиально. Но с другой стороны, так как KAN в общем случае обобщает MLP имея произвольную функцию в сравнении с w*activation(x). Где в первом слое активация является линейной. И вот тут интересный момент, если представить MLP как двухслойный KAN, то выходит, что это и портит всю ситуацию. И тут возникает вопрос, а честно ли так сравнивать, так как линейная функция является сплайном первого порядка, но не любой сплайн это линейная функция вида w*x+b.
Спасибо за приятный отзыв! Как я понял, вопрос про то, что работая только с кусочно-линейными KAN мы теряем как раз то, что и обобщает KAN - произвольные сплайны. Да, это действительно так, я рассматриваю лишь частный случай новой архитектуры, самый простой, в некотором смысле. Но даже так получается, что с точки зрения выразимостной мощности при равном числе слоев (в нашем случае 2) KAN оказывается мощнее.
Интересно было бы посмотреть дальше на KAN уже в общем виде, но там есть свои сложности, например, произвольный KAN уже не перестроить в классическую MLP, нужно добавлять специальные активационные функции с покоординатным возведением в степень.
Я имел ввиду следующее:
KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:
Где каждая сумма (слой) представляет собой преобразование подобного рода:
Двухслойный MLP имеет следующую формулу:
И его мы можем представить как:
Первый слой:
И второй выходной:
То есть двухслойный MLP мы можем представить как двухслойный KAN. Где мы его строим с помощью - . Ну и очевидно, что KAN обобщает MLP на случай произвольной
в общем случае. Единственное, что при представлении MLP в виде KAN, по определению, в первом слое -
. Собственно это и является его ограничением, так как функцию во втором слое мы задаем сами через функцию активации. Таким образом ограниченная выразительная способность MLP кроется в этом.
Теперь понял, итересное наблюдение про первый слой. В таком случае, есть ощущение, что на выразимостную мощность будет влиять ещё тот фак, что в MLP мы на каждом слое фиксируем активационную функцию, в то время как в KAN они могут быть разнородными.
А кем вы работаете? Звучит интересно все это, но не думаю, что вообще возможно найти время и причину это изучить и разобраться
Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами