Ну хорошо, показали, что G-матрица валидна с высокой вероятностью.
Вот только как это помогает перейти в другое пространство?
Вот, например, если сравнивать с регрессионным подходом, то там переход в другое пространство происходит с использованием обобщенных решающих функций и введением дополнительных коэффициентов, которые потом ищутся все тем же градиентным спуском. Вот только там никто и нигде не предлагает назначать их от балды.
Далее, если я правильно понял G-матрица зависит как раз и от обучающей выборки и от весов на входном слое.
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку. Так как иначе, нет гарантии что на данной конкретной выборке перцептрон сойдется.
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку.
Нет, так не получается. Теорема сходимости гарантирует, что на любой обучающей выборке будет полное схождение. Единственно, как и говорилось G-матрица не должна быть особенной.
Но вот тут как раз есть очень интересная особенность — чем менее случайно (т.е. степень псевдослучайности) распределены связи первого уровня, тем действительно больше влияет сама обучающая выборка.
Но это важно на практике и известно как с этим бороться. По сути достаточно компьютерного генератора случайности, но можно сделать лучше — от этого будет лишь зависеть скорость схождения. Но схождение будет гарантировано.
Как бы ожидалось их здесь увидеть, на протяжении всей статьи было рассказано только о том, что результирующая матрица будет иметь обратную… и что дальше-то?
Слив засчитан. В следствиях говорится о несуществовании решения. То, что в определенных условиях решения не существует, не следует, что в других оно существует… И уж точно из этого не следует, что алгоритм к нему сойдется…
Я ваши статьи читаю на несколько раз =) А вот вы от конкретных вопросов увиливаете. Итак в следствиях, говорится, что в определенных условиях решение невозможно. Вы в статье доказали, что такие условия при больших n не наступают. Я правильно понял?
Проблема в том, что там либо нет, либо непонятно как происходит переход из одного пространства в другое, а доказывается только некая общая универсальная сходимость перцептронов. О чем я выше и спросил ;)
А во-вторых, теорема говорит, только о том, что перцептрон рано или поздно сойдется, а не то что он сойдется на данной конкретной конечной выборке из n элементов, если не начать ее прокручивать сначала, в случае если перцептрон не сошелся сразу.
Ну, это математика :) Там доказывается вообще и сказано, что чтобы сошлось надо выполнить два условия из следствий 1 и 2, я показал, что они выполняются.
Во-вторых, теорема 4 говорит существующие возможные решения (теорема 3, что они вообще есть) могут быть достигнуты именно при применении алгоритма обучения с коррекцией ошибки.
«Вот только как это помогает перейти в другое пространство?»
А-матрица это и есть «другое пространство» — пространство признаков. И как я понимаю (настоящие математики меня могут поправить, если ошибаюсь), факт того, что матрица не является особенной и эта матрица на одну размерность больше чем исходная — и есть признак того, что она может быть разделена линейно.
Я вот скачал Минского, там тоже есть эта теорема, только в другой формулировке и с двумя другими доказательствами похоже. Попробую разобраться вечером после работы, может подойду ближе к истине ;)
А сравнивать с регрессионным подходом думаю не правомерно (хотя я в это не селен, и как раз хотел бы послушать от специалистов как там это происходит), но там другая ситуация — там поле не дискретно бинарное.
Ищется система, т. н. линейных решающих функций вида:
d(X) = W*X (тот же нейрон в общем-то),
где X — вектор признаков, W — вектор весов.
Веса ищутся на основе обучающей выборки через оптимизацию среднеквадратичной ошибки выхода как правило градиентным спуском.
Переход от нелинейно разделимой задачи к линейно осуществляется через повышение степени решающей функции, т. е. вместо
d(X) = w1*x1 + w2*x2
используется что-то вроде
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2
Ну и как бы метод обратного распространения ошибки в многослойных НС — это тоже разновидность градиентного спуска. Поэтому аналогия проводится достаточно прозрачная.
Ну и в многослойных перцептронах (там где я читал) поле абсолютно не обязательно дискретнобинарное.
Это в MLP не дискретнобинарное, оно там и не может быть принципиально таким. Я говорил, что в перцептроне Розенблатта оно обязательно дискретнобинарное.
Тогда действительно, это вряд ли гарантирует 100% переход из нелинейного представления в линейное. В MLP не требуется иметь число нейронов в среднем слое равным числу примеров в обучающей выборке. Сколько их должно быть там ответ один — гадайте. Нелинейная функция активации, конечно несколько увеличивает размерность по сравнению с пороговой у Розенблатта, но во-первых гарантий нет, а во вторых, вычислительная стоимость нелинейной функции больше (это конечно сравнительно гасится большим числом нейронов у Розенблатта, но и только). Возможно, отсутствие аналога особенно А-матрицы, в MLP гарантируется просто не нулевыми начальными весами, и малой вероятностью, превращения их в нули. Но все это надо показывать аналогично тому, как я показал в своей статье на основании доказанного Розенблаттом.
Что плохого произойдёт, если функция K(u, v) не будет удовлетворять услови-
ям Мерсера?… возникнет огромное количество локальных минимумов, и поиск решения среди них в общем случае потребует полного перебора. В этой ситуации многие методы квадратичного программирования будут выдавать
какой-то локальный минимум, совсем не обязательно хороший.
А. Это не пример, это между примерами текст ;)
А сама проблема локальных минимумов есть у всех методов оптимизации и машинного обучения, в том числе и у перцептронов.
Да нет же, в логистической регрессии нет перевода в другое пространство… Логистическая регрессия — это по сути один нейрон, даже не слой, а именно один нейрон.
Как бы там написано про перевод в другое пространство конкретно для регрессии. А раньше — про связь с нейронами и почему регрессия не обязательно один нейрон.
Это я к тому, что вы в вашем комментарии не правы.
Для регрессии — ок. Но сама регрессия, не подразумевает переводов в другое пространство. Про количество нейронов — один точно один-в-один лог. регрессия… а больше, надо подумать… )
Может вы напишете еще статью про алгоритм обучения с коррекцией ошибки? А то что-то не могу его найти.
Про случайный слой: это же гениально, согласен, без него, скорее всего вероятность схождения меньше(только догадки).
P.S. Далеко не все(в том числе и я) слышали, что есть перцептрон Розенблата, а читать 500 страниц уж очень долго.
Вот краткое описание метода коррекции ошибки. Получается, что у него после достижения весом нуля, он не может из него выйти, как и у обратного распространения.
Какова роль первого «случайного» слоя в перцептроне Розенблатта