Pull to refresh

Comments 8

Меня терзают смутные сомнения, не преобразуется или эта новая концепция в старую, добавлением дополнительных слоев?

уже обсуждалось - кроме способности графа вычислений из полиномов аппроксимировать функции (прорыв?) нейросеть больше никуда не годится.

Таких возможных графов вычислений различных полиномов есть еще примерно 100 штук. Ни слова об оптимальности подхода, только

эта инновационная структура от MIT готова трансформировать традиционные модели своим уникальным подходом.

Почему не умножать в узлах, почему не сделать весовые функции вида N*x^M+C ?

Где больше вычислительная сложность, где выше качество (количество слоев\переменных для достижения результата на нескольких функциях) - загадка.

MiT! :)

уже обсуждалось - кроме способности графа вычислений из полиномов аппроксимировать функции (прорыв?) нейросеть больше никуда не годится

Угу, кроме способности сладывать и вычитать числа, компьютеры больше никуда не годятся :)

Таких возможных графов вычислений различных полиномов есть еще примерно 100 штук

Да, разумеется. Проблемка кроется в волшебных пузырьках в коэффициентах. Перцептроны с сигмоидами рулят не потому, что они лучшие, а потому, что придумали бэк пропогейшен - эффективный способ как эту штуку обучать и показали его эквивалентность градиентному спуску. Более сложная сеть может быть либо более компактной, либо более вычислительно мощной (а может и то и другое). Основная проблема - как это обучить. Кажется, не всякая произвольная сеть с произвольными функциями активации/весов вообще сходится. Подозреваю, что данную сеть просто исследовали достаточно хорошо, чтобы говорить о сходимости и обучаемости.

Ни слова об оптимальности подхода

В каком смысле ни слова? Вы прочли хотя бы основные работы по теме? И что вы подразумеваете под "оптимальностью"? Оптимальность в каком смысле? И причём она тут вообще? Для большинства практических применение достаточно улучшения хотя бы одного параметра.

Почему не умножать в узлах, почему не сделать весовые функции вида N*x^M+C ?

Потому, что исследовали вполне определённую архитектуру. Но вы можете поисследовать свою, возможно, тоже получите хорошие результаты.

Где больше вычислительная сложность, где выше качество (количество слоев\переменных для достижения результата на нескольких функциях) - загадка.

Если не читать исследования - загадка. А так - нэтъ. ))

По сути да, кластеризует выходит

f(x)=σ(W∗x+B)f(x)=σ(Wx+B)

Поясните формулу, пожалуйста, раскройте смысл курсива или почему правая часть отличается от центральной. А заодно было бы неплохо переписать в TeX, вроде Хабр это позволяет.

Спасибо, хоть в комментариях грамотные люди статью доделают.

На просторах необъятного интернета подобные объяснения на каждом шагу, даже с примерами и инфографикой; как на русском, так и на английском языках.Смысл вашей статьи?

Sign up to leave a comment.

Articles