Pull to refresh

Comments 10

Новизны не вижу. Обосновали, почему можно строить сети с числом параметров больше размера обучающей выборки. Обычно стараются строить сеть размером (числом параметров) не больше, чем обучающая выборка. Это обосновано тем, что по сути, нейросеть - некоторая функция N параметров, которая аппроксимирует M входных сэмплов. И если M>N, то в общем случае сеть в процессе обучения заучивает опорные точки, а на всё остальное реагирует некорректно. Это обычно называют переобучением. На практике, можно строить сети и большей сложности, но в таком случае вводят контрольную группу сэмплов, на которой проверяют, обобщает ли сеть данные или уже просто зазубривает обучающую выборку.

>> M > N

Мне кажется вы перепутали буквы местами. И получается что имея 100500 примеров (М) и 1 параметр (N) это бедный нейрон уходит в переобучение.

"случайно распределенные точки, размещенные на поверхности сферы, почти все находятся на расстоянии полного диаметра друг от друга." Что за фигня? "Наш крокодил, как хотим, так и меряем".

Если я правильно понял, это значит, что с ростом размерности доля точек вблизи краёв быстро растёт.

Простите, где у сферы края? Это же вроде по определению поверхность без края.

После вдумчивого чтения Википедии про концентрацию меры, кажется, я понял, что речь о краях множества половинной меры (для сферы это должна быть просто полусфера).

Хотя, конечно, умение специалистов по теории меры/вероятности/многомерной геометрии объяснять такие вещи более широкой публике оставляет желать намного лучшего...

Сфера и является краем

Сфера является краем шара. Но у самой сферы края нет.

Я не специалист, но исследовал вопрос по наводке @DaniilSelikhanovych. Похоже, это утверждение неверное.

Правдой вроде бы будет такое (из статьи в русской Википедии про концентрацию меры, где сформулировано не очень внятно): если выбирать две точки на поверхности N-мерной сферы равномерно по её (гипер)площади, то наиболее вероятным сферическим расстоянием (т.е. длиной кратчайшего пути по поверхности той же сферы) будет pi/2. Другими словами, если мы выберем "полюс" в одной из точек, то вторая, скорее всего, будет около экватора. Это звучит куда более правдоподобно, не так ли?

Причём с ростом размерности N приближение будет становиться всё более точным, доля точек с отклонением больше любой фиксированной величины будет экспоненциально падать.

Sign up to leave a comment.

Other news