Упрощенное объяснение новой сети Колмогорова-Арнольда (KAN) из MIT / Comments / Habr

Меня терзают смутные сомнения, не преобразуется или эта новая концепция в старую, добавлением дополнительных слоев?

уже обсуждалось - кроме способности графа вычислений из полиномов аппроксимировать функции (прорыв?) нейросеть больше никуда не годится.

Таких возможных графов вычислений различных полиномов есть еще примерно 100 штук. Ни слова об оптимальности подхода, только

эта инновационная структура от MIT готова трансформировать традиционные модели своим уникальным подходом.

Почему не умножать в узлах, почему не сделать весовые функции вида N*x^M+C ?

Где больше вычислительная сложность, где выше качество (количество слоев\переменных для достижения результата на нескольких функциях) - загадка.

MiT! :)

avost May 28 at 20:07

уже обсуждалось - кроме способности графа вычислений из полиномов аппроксимировать функции (прорыв?) нейросеть больше никуда не годится

Угу, кроме способности сладывать и вычитать числа, компьютеры больше никуда не годятся :)

Таких возможных графов вычислений различных полиномов есть еще примерно 100 штук

Да, разумеется. Проблемка кроется ~~в волшебных пузырьках~~ в коэффициентах. Перцептроны с сигмоидами рулят не потому, что они лучшие, а потому, что придумали бэк пропогейшен - эффективный способ как эту штуку обучать и показали его эквивалентность градиентному спуску. Более сложная сеть может быть либо более компактной, либо более вычислительно мощной (а может и то и другое). Основная проблема - как это обучить. Кажется, не всякая произвольная сеть с произвольными функциями активации/весов вообще сходится. Подозреваю, что данную сеть просто исследовали достаточно хорошо, чтобы говорить о сходимости и обучаемости.

Ни слова об оптимальности подхода

В каком смысле ни слова? Вы прочли хотя бы основные работы по теме? И что вы подразумеваете под "оптимальностью"? Оптимальность в каком смысле? И причём она тут вообще? Для большинства практических применение достаточно улучшения хотя бы одного параметра.

Почему не умножать в узлах, почему не сделать весовые функции вида N*x^M+C ?

Потому, что исследовали вполне определённую архитектуру. Но вы можете поисследовать свою, возможно, тоже получите хорошие результаты.

Где больше вычислительная сложность, где выше качество (количество слоев\переменных для достижения результата на нескольких функциях) - загадка.

Если не читать исследования - загадка. А так - нэтъ. ))

Kealon May 28 at 07:45

По сути да, кластеризует выходит

Imaginarium May 28 at 09:57

f(x)=σ(W∗x+B)f(x)=σ(W∗x+B)

Поясните формулу, пожалуйста, раскройте смысл курсива или почему правая часть отличается от центральной. А заодно было бы неплохо переписать в TeX, вроде Хабр это позволяет.

domix32 May 28 at 12:23

Обе формулы записаны дважды. В оригинале они там без TeX

$f(x) = \sigma(W*x+B)$

И KAN

$f(x_1,x_2)=Φ_2(φ_{2,1}(φ_{1,1}(x_1)+φ_{1,2}(x_2)))$

Imaginarium May 28 at 12:47

Спасибо, хоть в комментариях грамотные люди статью доделают.

GIP3 May 29 at 08:37

На просторах необъятного интернета подобные объяснения на каждом шагу, даже с примерами и инфографикой; как на русском, так и на английском языках.Смысл вашей статьи?

Упрощенное объяснение новой сети Колмогорова-Арнольда (KAN) из MIT

Comments 8

Articles