tac21 мар 2012 в 01:09

Какова роль первого «случайного» слоя в перцептроне Розенблатта

6 мин

6.6K

Алгоритмы *

+22

Комментарии 54

retran 21 мар 2012 в 01:57

Гм…

Ну хорошо, показали, что G-матрица валидна с высокой вероятностью.
Вот только как это помогает перейти в другое пространство?

Вот, например, если сравнивать с регрессионным подходом, то там переход в другое пространство происходит с использованием обобщенных решающих функций и введением дополнительных коэффициентов, которые потом ищутся все тем же градиентным спуском. Вот только там никто и нигде не предлагает назначать их от балды.

Далее, если я правильно понял G-матрица зависит как раз и от обучающей выборки и от весов на входном слое.
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку. Так как иначе, нет гарантии что на данной конкретной выборке перцептрон сойдется.

Где я не прав?

tac 21 мар 2012 в 02:11

Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку.

Нет, так не получается. Теорема сходимости гарантирует, что на любой обучающей выборке будет полное схождение. Единственно, как и говорилось G-матрица не должна быть особенной.

Но вот тут как раз есть очень интересная особенность — чем менее случайно (т.е. степень псевдослучайности) распределены связи первого уровня, тем действительно больше влияет сама обучающая выборка.

Но это важно на практике и известно как с этим бороться. По сути достаточно компьютерного генератора случайности, но можно сделать лучше — от этого будет лишь зависеть скорость схождения. Но схождение будет гарантировано.

justserega 21 мар 2012 в 02:47

Где доказательства, что схождение будет гарантировано? Максимум, что вы доказали в этой статье, что оно не невозможно.

tac 21 мар 2012 в 02:51

Доказательства см. в теореме схождения Розенблатта.

justserega 21 мар 2012 в 02:55

Как бы ожидалось их здесь увидеть, на протяжении всей статьи было рассказано только о том, что результирующая матрица будет иметь обратную… и что дальше-то?

tac 21 мар 2012 в 02:58

а этого и достаточно, см. следствия 1 и 2 теоремы схождения

tac 21 мар 2012 в 02:56

Я исходил из того, что она доказана и доказаны используемые два следствия. Если найдете у Розенблатта в доказательстве ошибки — продолжим разговор.

justserega 21 мар 2012 в 03:02

Слив засчитан. В следствиях говорится о несуществовании решения. То, что в определенных условиях решения не существует, не следует, что в других оно существует… И уж точно из этого не следует, что алгоритм к нему сойдется…

tac 21 мар 2012 в 03:08

Вы сами поняли что написали :(

tac 21 мар 2012 в 03:20

а я понял, вы снова мою статью не читали

justserega 21 мар 2012 в 03:40

Я ваши статьи читаю на несколько раз =) А вот вы от конкретных вопросов увиливаете. Итак в следствиях, говорится, что в определенных условиях решение невозможно. Вы в статье доказали, что такие условия при больших n не наступают. Я правильно понял?

tac 21 мар 2012 в 03:47

теперь да

justserega 21 мар 2012 в 03:54

Ок, мы исключили два условия в которых решения нет. А где доказательства, что алгоритм сойдется?

tac 21 мар 2012 в 03:55

Это все у Розенблатта в полной мере — теорема 3 и 4.

justserega 21 мар 2012 в 04:02

Не могли бы вы это добавить в статью?

tac 21 мар 2012 в 09:54

Добавил

retran 21 мар 2012 в 03:02

Проблема в том, что там либо нет, либо непонятно как происходит переход из одного пространства в другое, а доказывается только некая общая универсальная сходимость перцептронов. О чем я выше и спросил ;)

А во-вторых, теорема говорит, только о том, что перцептрон рано или поздно сойдется, а не то что он сойдется на данной конкретной конечной выборке из n элементов, если не начать ее прокручивать сначала, в случае если перцептрон не сошелся сразу.

tac 21 мар 2012 в 03:12

Ну, это математика :) Там доказывается вообще и сказано, что чтобы сошлось надо выполнить два условия из следствий 1 и 2, я показал, что они выполняются.

Во-вторых, теорема 4 говорит существующие возможные решения (теорема 3, что они вообще есть) могут быть достигнуты именно при применении алгоритма обучения с коррекцией ошибки.

tac 21 мар 2012 в 03:18

И да конечно, показывать все примеры из обучающей выборке, надо многократно — это по моему общеизвестно.

tac 21 мар 2012 в 02:17

«Вот только как это помогает перейти в другое пространство?»

А-матрица это и есть «другое пространство» — пространство признаков. И как я понимаю (настоящие математики меня могут поправить, если ошибаюсь), факт того, что матрица не является особенной и эта матрица на одну размерность больше чем исходная — и есть признак того, что она может быть разделена линейно.

retran 21 мар 2012 в 02:48

Я вот скачал Минского, там тоже есть эта теорема, только в другой формулировке и с двумя другими доказательствами похоже. Попробую разобраться вечером после работы, может подойду ближе к истине ;)

tac 21 мар 2012 в 02:54

Там осторожно, Минский не очень аккуратен в формулировках, если поверхностно читать можно его понять превратно.

tac 21 мар 2012 в 02:24

А сравнивать с регрессионным подходом думаю не правомерно (хотя я в это не селен, и как раз хотел бы послушать от специалистов как там это происходит), но там другая ситуация — там поле не дискретно бинарное.

retran 21 мар 2012 в 02:38

В двух словах:

Ищется система, т. н. линейных решающих функций вида:
d(X) = W*X (тот же нейрон в общем-то),
где X — вектор признаков, W — вектор весов.
Веса ищутся на основе обучающей выборки через оптимизацию среднеквадратичной ошибки выхода как правило градиентным спуском.

Переход от нелинейно разделимой задачи к линейно осуществляется через повышение степени решающей функции, т. е. вместо
d(X) = w1*x1 + w2*x2
используется что-то вроде
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2

Ну и как бы метод обратного распространения ошибки в многослойных НС — это тоже разновидность градиентного спуска. Поэтому аналогия проводится достаточно прозрачная.

Ну и в многослойных перцептронах (там где я читал) поле абсолютно не обязательно дискретнобинарное.

tac 21 мар 2012 в 02:45

Это в MLP не дискретнобинарное, оно там и не может быть принципиально таким. Я говорил, что в перцептроне Розенблатта оно обязательно дискретнобинарное.

tac 21 мар 2012 в 02:49

Ок, это вы рассказали, что якобы сигмоид + градиентный спуск переводит нелинейное представление в линейное. А именно на месте этого

d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2

может быть сигмоид и это и есть гарантия перевода? Что-то я сомневаюсь. Но вначале подтвердите, что я правильно понял.

retran 21 мар 2012 в 02:54

Да сигмоид может быть, только тогда эта будет сумма произведений разных сигмоидов от ВСЕГО вектора признаков и соответствующих весов.

Как сами сигмоиды должны выглядеть от вектора признаков сейчас не смогу сказать.

tac 21 мар 2012 в 03:08

Тогда действительно, это вряд ли гарантирует 100% переход из нелинейного представления в линейное. В MLP не требуется иметь число нейронов в среднем слое равным числу примеров в обучающей выборке. Сколько их должно быть там ответ один — гадайте. Нелинейная функция активации, конечно несколько увеличивает размерность по сравнению с пороговой у Розенблатта, но во-первых гарантий нет, а во вторых, вычислительная стоимость нелинейной функции больше (это конечно сравнительно гасится большим числом нейронов у Розенблатта, но и только). Возможно, отсутствие аналога особенно А-матрицы, в MLP гарантируется просто не нулевыми начальными весами, и малой вероятностью, превращения их в нули. Но все это надо показывать аналогично тому, как я показал в своей статье на основании доказанного Розенблаттом.

retran 21 мар 2012 в 03:26

www.machinelearning.ru/wiki/images/6/68/Voron-ML-Lin.pdf — вот тут на странице 27 про сигмоиды, а до этого про связь с перцептронами и многослойными сетями.

tac 21 мар 2012 в 03:29

Но это же метод опорных векторов (SVM) — причем он тут?

retran 21 мар 2012 в 03:37

Оно почти так же выглядит и для градиентного спуска, который в данной статье идет в самом начале.

tac 21 мар 2012 в 04:06

Так там как раз пример 1.5. и показывает как все плохо, в полном соответствии с моими сомнениями выше

retran 21 мар 2012 в 04:18

Поясните, пожалуйста.

tac 21 мар 2012 в 04:21

Я вот об этом

Что плохого произойдёт, если функция K(u, v) не будет удовлетворять услови-
ям Мерсера?… возникнет огромное количество локальных минимумов, и поиск решения среди них в общем случае потребует полного перебора. В этой ситуации многие методы квадратичного программирования будут выдавать
какой-то локальный минимум, совсем не обязательно хороший.

retran 21 мар 2012 в 04:27

А. Это не пример, это между примерами текст ;)
А сама проблема локальных минимумов есть у всех методов оптимизации и машинного обучения, в том числе и у перцептронов.

tac 21 мар 2012 в 04:37

Может оно и так, но я вот ни как не пойму — как же это должно отражаться на сходимости?

retran 21 мар 2012 в 04:40

Если изменения весов слишком маленькие и константные, то алгоритм может зациклиться вокруг неправильного вектора весов.

Я так понимаю, что ввод случайных изменений весов у Розенблатта — это как раз борьба с локальными минимумами.

tac 21 мар 2012 в 04:48

Нету там ввода случайных изменений весов, я же писал, что это для особенной схемы без учителя.

Так вот в том то и дело — нету у перцептрона Розенблатта даже намека, что алгоритм зациклится.

justserega 21 мар 2012 в 03:11

Да нет же, в логистической регрессии нет перевода в другое пространство… Логистическая регрессия — это по сути один нейрон, даже не слой, а именно один нейрон.

retran 21 мар 2012 в 03:18

www.machinelearning.ru/wiki/images/6/68/Voron-ML-Lin.pdf — страница 24

justserega 21 мар 2012 в 03:27

А поконкретнее? Что не так?

retran 21 мар 2012 в 03:31

Как бы там написано про перевод в другое пространство конкретно для регрессии. А раньше — про связь с нейронами и почему регрессия не обязательно один нейрон.

Это я к тому, что вы в вашем комментарии не правы.

justserega 21 мар 2012 в 03:35

Для регрессии — ок. Но сама регрессия, не подразумевает переводов в другое пространство. Про количество нейронов — один точно один-в-один лог. регрессия… а больше, надо подумать… )

retran 21 мар 2012 в 03:42

У вас не обязательно одна решающая функция. Это может быть система функций ;)

justserega 21 мар 2012 в 03:44

Вы совершенно правы. Упустил это из виду.

agorkov 21 мар 2012 в 13:10

Вы очень много в статье говорили о своих научных статьях. Мне было бы интересно их почитать. Вы могди бы сказать их выходные данные?

tac 21 мар 2012 в 20:06

Что касается, использованной здесь то тут Perceptron Architecture Ensuring Pattern Description Compactness

tac 21 мар 2012 в 20:21

А вообще подборка тут.

dtestyk 21 мар 2012 в 16:11

Может вы напишете еще статью про алгоритм обучения с коррекцией ошибки? А то что-то не могу его найти.
Про случайный слой: это же гениально, согласен, без него, скорее всего вероятность схождения меньше(только догадки).
P.S. Далеко не все(в том числе и я) слышали, что есть перцептрон Розенблата, а читать 500 страниц уж очень долго.

dtestyk 21 мар 2012 в 17:39

Вот краткое описание метода коррекции ошибки. Получается, что у него после достижения весом нуля, он не может из него выйти, как и у обратного распространения.

tac 21 мар 2012 в 20:08

Получается, что у него после достижения весом нуля, он не может из него выйти, как и у обратного распространения.

Это не верно. Там вообще обучение начинается с нулевых весов.

dtestyk 21 мар 2012 в 23:21

«Там вообще обучение начинается с нулевых весов» — а можно чуть подробнее? Как именно выходит из нуля?

tac 22 мар 2012 в 01:23

Хорошо, я напишу позже статью об основах перцептрона Розенблатта, где этому уделю внимание

dtestyk 22 мар 2012 в 06:18

спасибо

Зарегистрируйтесь на Хабре, чтобы оставить комментарий