Обновить

Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели9K
Всего голосов 5: ↑5 и ↓0+6
Комментарии4

Комментарии 4

Позволю себе немного добавить цитатой;

Сомнения относительно возможностей персептронов развеяли советские математики — академик А.Н. Колмогоров (1903–1987) и академик В.И. Арнольд (род. в 1937). Им удалось доказать, что любая непрерывная функция n переменных f(x1, x2, ... xn) всегда может быть представлена в виде суммы непрерывных функций одного переменного f1(x1) + f2(x1) + ... + fn(xn), гипотеза Гильберта была опровергнута, и нейроинформатике, таким образом, был открыт “зеленый свет”.

В 1987–1991 гг. профессором Калифорнийского университета (США) Р.Хехт-Нильсеном теоремы Арнольда – Колмогорова были переработаны применительно к нейронным сетям. Было доказано, что для любого множества непротиворечивых между собой пар произвольной размерности (Xq, Dq), q = 1, ..., Q, существует двухслойный персептрон с сигмоидными активационными функциями и с конечным числом нейронов, который для каждого входного вектора Xq формирует соответствующий ему выходной вектор Dq.

Таким образом, была доказана принципиальная возможность построения нейронной сети, выполняющей преобразование, заданное любым множеством различающихся между собой обучающих примеров, и установлено, что такой универсальной нейронной сетью является двухслойный персептрон, т.е. персептрон с одним скрытым слоем, причем активационные функции его нейронов должны быть сигмоидными.

То же самое подаётся как теорема Джорджа Цибенко от 1989 года - не знаю чей приоритет правильный.

У вас получаются великолепные статьи.

там проблема в том что сигмоид - это тёплый ламповый метод когда можно практически без усилий реализовать конечно-разностный метод обратного распространения за счёт свойств функции. Однако, ReLU проигрывает по количеству но легко обходит простотой. Тогда это было актуально когда DRAM была в прямом смысле на вес золота за сотню нейронов. Сейчас же хоть под триллион полновесных весов - не проблема. Там не нужно считать нелинейности а только фактически переключения (знак градиента), по сути некий аналог метода половинного сечения. Есть ещё дополнение в виде аппаратной реализации barrel shifter но там нужны принципиально другой метод обучения когда запоминается несколько состояний градиентов, как в методе Ньютона-Рафсона, последовательными итерациями приближаясь с сигмоиду. Но зачем плодить нелинейности когда есть СЛАУ, собственно и тензорные ядра на этот счёт молотить обратные матрицы. Вообщем от этих моделей уже давным давно отказались в пользу фактически виртуальных машин на 1 байт (256 значений).

  • Этот базис про склажывание, как ты выразился основа для самой сути принадлежности ии, и геометрия и объем не могут быть аспектом генерации, это проицииование на интеллект через крайне примитивные инструменты только для объект в зайти замысла и корявые рамки. И пользы для развития и понимания несёт лишь отрицательный эффект. Этот тезис был полезен на заре и то в концепции выбора.

Теорема об универсальной аппроксимации не лжет математически, она лжет концептуально. Да, плоская и бесконечно широкая сеть может выучить всё. Но она сделает это через тупую зубрежку.

С чего бы это? Если истинная функция, которая обобщает информацию и дает модели "интеллект", находится в пространстве непрерывных функций, то UAT нормально работает. То, что это теорема существования, факт, но при такой общности невозможно фундаментально требовать большего, чем теорему существования.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации