Comments 54
Гм…
Ну хорошо, показали, что G-матрица валидна с высокой вероятностью.
Вот только как это помогает перейти в другое пространство?
Вот, например, если сравнивать с регрессионным подходом, то там переход в другое пространство происходит с использованием обобщенных решающих функций и введением дополнительных коэффициентов, которые потом ищутся все тем же градиентным спуском. Вот только там никто и нигде не предлагает назначать их от балды.
Далее, если я правильно понял G-матрица зависит как раз и от обучающей выборки и от весов на входном слое.
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку. Так как иначе, нет гарантии что на данной конкретной выборке перцептрон сойдется.
Где я не прав?
Ну хорошо, показали, что G-матрица валидна с высокой вероятностью.
Вот только как это помогает перейти в другое пространство?
Вот, например, если сравнивать с регрессионным подходом, то там переход в другое пространство происходит с использованием обобщенных решающих функций и введением дополнительных коэффициентов, которые потом ищутся все тем же градиентным спуском. Вот только там никто и нигде не предлагает назначать их от балды.
Далее, если я правильно понял G-матрица зависит как раз и от обучающей выборки и от весов на входном слое.
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку. Так как иначе, нет гарантии что на данной конкретной выборке перцептрон сойдется.
Где я не прав?
Тогда получается, что имея некую заданную обучающую выборку, веса надо назначать не случайно, а как раз под эту конкретную обучающую выборку.
Нет, так не получается. Теорема сходимости гарантирует, что на любой обучающей выборке будет полное схождение. Единственно, как и говорилось G-матрица не должна быть особенной.
Но вот тут как раз есть очень интересная особенность — чем менее случайно (т.е. степень псевдослучайности) распределены связи первого уровня, тем действительно больше влияет сама обучающая выборка.
Но это важно на практике и известно как с этим бороться. По сути достаточно компьютерного генератора случайности, но можно сделать лучше — от этого будет лишь зависеть скорость схождения. Но схождение будет гарантировано.
Нет, так не получается. Теорема сходимости гарантирует, что на любой обучающей выборке будет полное схождение. Единственно, как и говорилось G-матрица не должна быть особенной.
Но вот тут как раз есть очень интересная особенность — чем менее случайно (т.е. степень псевдослучайности) распределены связи первого уровня, тем действительно больше влияет сама обучающая выборка.
Но это важно на практике и известно как с этим бороться. По сути достаточно компьютерного генератора случайности, но можно сделать лучше — от этого будет лишь зависеть скорость схождения. Но схождение будет гарантировано.
Где доказательства, что схождение будет гарантировано? Максимум, что вы доказали в этой статье, что оно не невозможно.
Доказательства см. в теореме схождения Розенблатта.
Как бы ожидалось их здесь увидеть, на протяжении всей статьи было рассказано только о том, что результирующая матрица будет иметь обратную… и что дальше-то?
Я исходил из того, что она доказана и доказаны используемые два следствия. Если найдете у Розенблатта в доказательстве ошибки — продолжим разговор.
Слив засчитан. В следствиях говорится о несуществовании решения. То, что в определенных условиях решения не существует, не следует, что в других оно существует… И уж точно из этого не следует, что алгоритм к нему сойдется…
Вы сами поняли что написали :(
а я понял, вы снова мою статью не читали
Я ваши статьи читаю на несколько раз =) А вот вы от конкретных вопросов увиливаете. Итак в следствиях, говорится, что в определенных условиях решение невозможно. Вы в статье доказали, что такие условия при больших n не наступают. Я правильно понял?
Проблема в том, что там либо нет, либо непонятно как происходит переход из одного пространства в другое, а доказывается только некая общая универсальная сходимость перцептронов. О чем я выше и спросил ;)
А во-вторых, теорема говорит, только о том, что перцептрон рано или поздно сойдется, а не то что он сойдется на данной конкретной конечной выборке из n элементов, если не начать ее прокручивать сначала, в случае если перцептрон не сошелся сразу.
А во-вторых, теорема говорит, только о том, что перцептрон рано или поздно сойдется, а не то что он сойдется на данной конкретной конечной выборке из n элементов, если не начать ее прокручивать сначала, в случае если перцептрон не сошелся сразу.
Ну, это математика :) Там доказывается вообще и сказано, что чтобы сошлось надо выполнить два условия из следствий 1 и 2, я показал, что они выполняются.
Во-вторых, теорема 4 говорит существующие возможные решения (теорема 3, что они вообще есть) могут быть достигнуты именно при применении алгоритма обучения с коррекцией ошибки.
Во-вторых, теорема 4 говорит существующие возможные решения (теорема 3, что они вообще есть) могут быть достигнуты именно при применении алгоритма обучения с коррекцией ошибки.
И да конечно, показывать все примеры из обучающей выборке, надо многократно — это по моему общеизвестно.
«Вот только как это помогает перейти в другое пространство?»
А-матрица это и есть «другое пространство» — пространство признаков. И как я понимаю (настоящие математики меня могут поправить, если ошибаюсь), факт того, что матрица не является особенной и эта матрица на одну размерность больше чем исходная — и есть признак того, что она может быть разделена линейно.
А-матрица это и есть «другое пространство» — пространство признаков. И как я понимаю (настоящие математики меня могут поправить, если ошибаюсь), факт того, что матрица не является особенной и эта матрица на одну размерность больше чем исходная — и есть признак того, что она может быть разделена линейно.
Я вот скачал Минского, там тоже есть эта теорема, только в другой формулировке и с двумя другими доказательствами похоже. Попробую разобраться вечером после работы, может подойду ближе к истине ;)
А сравнивать с регрессионным подходом думаю не правомерно (хотя я в это не селен, и как раз хотел бы послушать от специалистов как там это происходит), но там другая ситуация — там поле не дискретно бинарное.
В двух словах:
Ищется система, т. н. линейных решающих функций вида:
d(X) = W*X (тот же нейрон в общем-то),
где X — вектор признаков, W — вектор весов.
Веса ищутся на основе обучающей выборки через оптимизацию среднеквадратичной ошибки выхода как правило градиентным спуском.
Переход от нелинейно разделимой задачи к линейно осуществляется через повышение степени решающей функции, т. е. вместо
d(X) = w1*x1 + w2*x2
используется что-то вроде
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2
Ну и как бы метод обратного распространения ошибки в многослойных НС — это тоже разновидность градиентного спуска. Поэтому аналогия проводится достаточно прозрачная.
Ну и в многослойных перцептронах (там где я читал) поле абсолютно не обязательно дискретнобинарное.
Ищется система, т. н. линейных решающих функций вида:
d(X) = W*X (тот же нейрон в общем-то),
где X — вектор признаков, W — вектор весов.
Веса ищутся на основе обучающей выборки через оптимизацию среднеквадратичной ошибки выхода как правило градиентным спуском.
Переход от нелинейно разделимой задачи к линейно осуществляется через повышение степени решающей функции, т. е. вместо
d(X) = w1*x1 + w2*x2
используется что-то вроде
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2
Ну и как бы метод обратного распространения ошибки в многослойных НС — это тоже разновидность градиентного спуска. Поэтому аналогия проводится достаточно прозрачная.
Ну и в многослойных перцептронах (там где я читал) поле абсолютно не обязательно дискретнобинарное.
Это в MLP не дискретнобинарное, оно там и не может быть принципиально таким. Я говорил, что в перцептроне Розенблатта оно обязательно дискретнобинарное.
Ок, это вы рассказали, что якобы сигмоид + градиентный спуск переводит нелинейное представление в линейное. А именно на месте этого
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2
может быть сигмоид и это и есть гарантия перевода? Что-то я сомневаюсь. Но вначале подтвердите, что я правильно понял.
d(X) = w1*x1*x1 + w2*x1*x2 + w3*x2*x2
может быть сигмоид и это и есть гарантия перевода? Что-то я сомневаюсь. Но вначале подтвердите, что я правильно понял.
Да сигмоид может быть, только тогда эта будет сумма произведений разных сигмоидов от ВСЕГО вектора признаков и соответствующих весов.
Как сами сигмоиды должны выглядеть от вектора признаков сейчас не смогу сказать.
Как сами сигмоиды должны выглядеть от вектора признаков сейчас не смогу сказать.
Тогда действительно, это вряд ли гарантирует 100% переход из нелинейного представления в линейное. В MLP не требуется иметь число нейронов в среднем слое равным числу примеров в обучающей выборке. Сколько их должно быть там ответ один — гадайте. Нелинейная функция активации, конечно несколько увеличивает размерность по сравнению с пороговой у Розенблатта, но во-первых гарантий нет, а во вторых, вычислительная стоимость нелинейной функции больше (это конечно сравнительно гасится большим числом нейронов у Розенблатта, но и только). Возможно, отсутствие аналога особенно А-матрицы, в MLP гарантируется просто не нулевыми начальными весами, и малой вероятностью, превращения их в нули. Но все это надо показывать аналогично тому, как я показал в своей статье на основании доказанного Розенблаттом.
www.machinelearning.ru/wiki/images/6/68/Voron-ML-Lin.pdf — вот тут на странице 27 про сигмоиды, а до этого про связь с перцептронами и многослойными сетями.
Но это же метод опорных векторов (SVM) — причем он тут?
Оно почти так же выглядит и для градиентного спуска, который в данной статье идет в самом начале.
Так там как раз пример 1.5. и показывает как все плохо, в полном соответствии с моими сомнениями выше
Поясните, пожалуйста.
Я вот об этом
Что плохого произойдёт, если функция K(u, v) не будет удовлетворять услови-
ям Мерсера?… возникнет огромное количество локальных минимумов, и поиск решения среди них в общем случае потребует полного перебора. В этой ситуации многие методы квадратичного программирования будут выдавать
какой-то локальный минимум, совсем не обязательно хороший.
Что плохого произойдёт, если функция K(u, v) не будет удовлетворять услови-
ям Мерсера?… возникнет огромное количество локальных минимумов, и поиск решения среди них в общем случае потребует полного перебора. В этой ситуации многие методы квадратичного программирования будут выдавать
какой-то локальный минимум, совсем не обязательно хороший.
А. Это не пример, это между примерами текст ;)
А сама проблема локальных минимумов есть у всех методов оптимизации и машинного обучения, в том числе и у перцептронов.
А сама проблема локальных минимумов есть у всех методов оптимизации и машинного обучения, в том числе и у перцептронов.
Может оно и так, но я вот ни как не пойму — как же это должно отражаться на сходимости?
Если изменения весов слишком маленькие и константные, то алгоритм может зациклиться вокруг неправильного вектора весов.
Я так понимаю, что ввод случайных изменений весов у Розенблатта — это как раз борьба с локальными минимумами.
Я так понимаю, что ввод случайных изменений весов у Розенблатта — это как раз борьба с локальными минимумами.
Да нет же, в логистической регрессии нет перевода в другое пространство… Логистическая регрессия — это по сути один нейрон, даже не слой, а именно один нейрон.
А поконкретнее? Что не так?
Как бы там написано про перевод в другое пространство конкретно для регрессии. А раньше — про связь с нейронами и почему регрессия не обязательно один нейрон.
Это я к тому, что вы в вашем комментарии не правы.
Это я к тому, что вы в вашем комментарии не правы.
Вы очень много в статье говорили о своих научных статьях. Мне было бы интересно их почитать. Вы могди бы сказать их выходные данные?
Что касается, использованной здесь то тут Perceptron Architecture Ensuring Pattern Description Compactness
Может вы напишете еще статью про алгоритм обучения с коррекцией ошибки? А то что-то не могу его найти.
Про случайный слой: это же гениально, согласен, без него, скорее всего вероятность схождения меньше(только догадки).
P.S. Далеко не все(в том числе и я) слышали, что есть перцептрон Розенблата, а читать 500 страниц уж очень долго.
Про случайный слой: это же гениально, согласен, без него, скорее всего вероятность схождения меньше(только догадки).
P.S. Далеко не все(в том числе и я) слышали, что есть перцептрон Розенблата, а читать 500 страниц уж очень долго.
Sign up to leave a comment.
Какова роль первого «случайного» слоя в перцептроне Розенблатта