Search
Write a publication
Pull to refresh

Comments 54

Гм…

Ну хорошо, показали, что G-матрица валидна с высокой вероятностью.
Вот только как это помогает перейти в другое пространство?

Вот, например, если сравнивать с регрессионным подходом, то там переход в другое пространство происходит с использованием обобщенных решающих функций и введением дополнительных коэффициентов, которые потом ищутся все тем же градиентным спуском. Вот только там никто и нигде не предлагает назначать их от балды.

Далее, если я правильно понял G-матрица зависит как раз и от обучающей выборки и от весов на входном слое.
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку. Так как иначе, нет гарантии что на данной конкретной выборке перцептрон сойдется.

Где я не прав?
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку.

Нет, так не получается. Теорема сходимости гарантирует, что на любой обучающей выборке будет полное схождение. Единственно, как и говорилось G-матрица не должна быть особенной.

Но вот тут как раз есть очень интересная особенность — чем менее случайно (т.е. степень псевдослучайности) распределены связи первого уровня, тем действительно больше влияет сама обучающая выборка.

Но это важно на практике и известно как с этим бороться. По сути достаточно компьютерного генератора случайности, но можно сделать лучше — от этого будет лишь зависеть скорость схождения. Но схождение будет гарантировано.
Где доказательства, что схождение будет гарантировано? Максимум, что вы доказали в этой статье, что оно не невозможно.
Доказательства см. в теореме схождения Розенблатта.
Как бы ожидалось их здесь увидеть, на протяжении всей статьи было рассказано только о том, что результирующая матрица будет иметь обратную… и что дальше-то?
а этого и достаточно, см. следствия 1 и 2 теоремы схождения
Я исходил из того, что она доказана и доказаны используемые два следствия. Если найдете у Розенблатта в доказательстве ошибки — продолжим разговор.
Слив засчитан. В следствиях говорится о несуществовании решения. То, что в определенных условиях решения не существует, не следует, что в других оно существует… И уж точно из этого не следует, что алгоритм к нему сойдется…
Вы сами поняли что написали :(
а я понял, вы снова мою статью не читали
Я ваши статьи читаю на несколько раз =) А вот вы от конкретных вопросов увиливаете. Итак в следствиях, говорится, что в определенных условиях решение невозможно. Вы в статье доказали, что такие условия при больших n не наступают. Я правильно понял?
Ок, мы исключили два условия в которых решения нет. А где доказательства, что алгоритм сойдется?
Это все у Розенблатта в полной мере — теорема 3 и 4.
Проблема в том, что там либо нет, либо непонятно как происходит переход из одного пространства в другое, а доказывается только некая общая универсальная сходимость перцептронов. О чем я выше и спросил ;)

А во-вторых, теорема говорит, только о том, что перцептрон рано или поздно сойдется, а не то что он сойдется на данной конкретной конечной выборке из n элементов, если не начать ее прокручивать сначала, в случае если перцептрон не сошелся сразу.
Ну, это математика :) Там доказывается вообще и сказано, что чтобы сошлось надо выполнить два условия из следствий 1 и 2, я показал, что они выполняются.

Во-вторых, теорема 4 говорит существующие возможные решения (теорема 3, что они вообще есть) могут быть достигнуты именно при применении алгоритма обучения с коррекцией ошибки.
И да конечно, показывать все примеры из обучающей выборке, надо многократно — это по моему общеизвестно.
«Вот только как это помогает перейти в другое пространство?»

А-матрица это и есть «другое пространство» — пространство признаков. И как я понимаю (настоящие математики меня могут поправить, если ошибаюсь), факт того, что матрица не является особенной и эта матрица на одну размерность больше чем исходная — и есть признак того, что она может быть разделена линейно.
Я вот скачал Минского, там тоже есть эта теорема, только в другой формулировке и с двумя другими доказательствами похоже. Попробую разобраться вечером после работы, может подойду ближе к истине ;)
Там осторожно, Минский не очень аккуратен в формулировках, если поверхностно читать можно его понять превратно.
А сравнивать с регрессионным подходом думаю не правомерно (хотя я в это не селен, и как раз хотел бы послушать от специалистов как там это происходит), но там другая ситуация — там поле не дискретно бинарное.
В двух словах:

Ищется система, т. н. линейных решающих функций вида:
d(X) = W*X (тот же нейрон в общем-то),
где X — вектор признаков, W — вектор весов.
Веса ищутся на основе обучающей выборки через оптимизацию среднеквадратичной ошибки выхода как правило градиентным спуском.

Переход от нелинейно разделимой задачи к линейно осуществляется через повышение степени решающей функции, т. е. вместо
d(X) = w1*x1 + w2*x2
используется что-то вроде
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2

Ну и как бы метод обратного распространения ошибки в многослойных НС — это тоже разновидность градиентного спуска. Поэтому аналогия проводится достаточно прозрачная.

Ну и в многослойных перцептронах (там где я читал) поле абсолютно не обязательно дискретнобинарное.
Это в MLP не дискретнобинарное, оно там и не может быть принципиально таким. Я говорил, что в перцептроне Розенблатта оно обязательно дискретнобинарное.
Ок, это вы рассказали, что якобы сигмоид + градиентный спуск переводит нелинейное представление в линейное. А именно на месте этого

d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2

может быть сигмоид и это и есть гарантия перевода? Что-то я сомневаюсь. Но вначале подтвердите, что я правильно понял.
Да сигмоид может быть, только тогда эта будет сумма произведений разных сигмоидов от ВСЕГО вектора признаков и соответствующих весов.

Как сами сигмоиды должны выглядеть от вектора признаков сейчас не смогу сказать.
Тогда действительно, это вряд ли гарантирует 100% переход из нелинейного представления в линейное. В MLP не требуется иметь число нейронов в среднем слое равным числу примеров в обучающей выборке. Сколько их должно быть там ответ один — гадайте. Нелинейная функция активации, конечно несколько увеличивает размерность по сравнению с пороговой у Розенблатта, но во-первых гарантий нет, а во вторых, вычислительная стоимость нелинейной функции больше (это конечно сравнительно гасится большим числом нейронов у Розенблатта, но и только). Возможно, отсутствие аналога особенно А-матрицы, в MLP гарантируется просто не нулевыми начальными весами, и малой вероятностью, превращения их в нули. Но все это надо показывать аналогично тому, как я показал в своей статье на основании доказанного Розенблаттом.
Но это же метод опорных векторов (SVM) — причем он тут?
Оно почти так же выглядит и для градиентного спуска, который в данной статье идет в самом начале.
Так там как раз пример 1.5. и показывает как все плохо, в полном соответствии с моими сомнениями выше
Я вот об этом

Что плохого произойдёт, если функция K(u, v) не будет удовлетворять услови-
ям Мерсера?… возникнет огромное количество локальных минимумов, и поиск решения среди них в общем случае потребует полного перебора. В этой ситуации многие методы квадратичного программирования будут выдавать
какой-то локальный минимум, совсем не обязательно хороший.
А. Это не пример, это между примерами текст ;)
А сама проблема локальных минимумов есть у всех методов оптимизации и машинного обучения, в том числе и у перцептронов.
Может оно и так, но я вот ни как не пойму — как же это должно отражаться на сходимости?
Если изменения весов слишком маленькие и константные, то алгоритм может зациклиться вокруг неправильного вектора весов.

Я так понимаю, что ввод случайных изменений весов у Розенблатта — это как раз борьба с локальными минимумами.
Нету там ввода случайных изменений весов, я же писал, что это для особенной схемы без учителя.

Так вот в том то и дело — нету у перцептрона Розенблатта даже намека, что алгоритм зациклится.
Да нет же, в логистической регрессии нет перевода в другое пространство… Логистическая регрессия — это по сути один нейрон, даже не слой, а именно один нейрон.
Как бы там написано про перевод в другое пространство конкретно для регрессии. А раньше — про связь с нейронами и почему регрессия не обязательно один нейрон.

Это я к тому, что вы в вашем комментарии не правы.
Для регрессии — ок. Но сама регрессия, не подразумевает переводов в другое пространство. Про количество нейронов — один точно один-в-один лог. регрессия… а больше, надо подумать… )
У вас не обязательно одна решающая функция. Это может быть система функций ;)
Вы совершенно правы. Упустил это из виду.
Вы очень много в статье говорили о своих научных статьях. Мне было бы интересно их почитать. Вы могди бы сказать их выходные данные?
Может вы напишете еще статью про алгоритм обучения с коррекцией ошибки? А то что-то не могу его найти.
Про случайный слой: это же гениально, согласен, без него, скорее всего вероятность схождения меньше(только догадки).
P.S. Далеко не все(в том числе и я) слышали, что есть перцептрон Розенблата, а читать 500 страниц уж очень долго.
Вот краткое описание метода коррекции ошибки. Получается, что у него после достижения весом нуля, он не может из него выйти, как и у обратного распространения.
Получается, что у него после достижения весом нуля, он не может из него выйти, как и у обратного распространения.

Это не верно. Там вообще обучение начинается с нулевых весов.
«Там вообще обучение начинается с нулевых весов» — а можно чуть подробнее? Как именно выходит из нуля?
Хорошо, я напишу позже статью об основах перцептрона Розенблатта, где этому уделю внимание
Sign up to leave a comment.

Articles