Comments 10
А в чем новизна?
Новизны не вижу. Обосновали, почему можно строить сети с числом параметров больше размера обучающей выборки. Обычно стараются строить сеть размером (числом параметров) не больше, чем обучающая выборка. Это обосновано тем, что по сути, нейросеть - некоторая функция N параметров, которая аппроксимирует M входных сэмплов. И если M>N, то в общем случае сеть в процессе обучения заучивает опорные точки, а на всё остальное реагирует некорректно. Это обычно называют переобучением. На практике, можно строить сети и большей сложности, но в таком случае вводят контрольную группу сэмплов, на которой проверяют, обобщает ли сеть данные или уже просто зазубривает обучающую выборку.
"случайно распределенные точки, размещенные на поверхности сферы, почти все находятся на расстоянии полного диаметра друг от друга." Что за фигня? "Наш крокодил, как хотим, так и меряем".
Простите, где у сферы края? Это же вроде по определению поверхность без края.
После вдумчивого чтения Википедии про концентрацию меры, кажется, я понял, что речь о краях множества половинной меры (для сферы это должна быть просто полусфера).
Хотя, конечно, умение специалистов по теории меры/вероятности/многомерной геометрии объяснять такие вещи более широкой публике оставляет желать намного лучшего...
Сфера и является краем
Я не специалист, но исследовал вопрос по наводке @DaniilSelikhanovych. Похоже, это утверждение неверное.
Правдой вроде бы будет такое (из статьи в русской Википедии про концентрацию меры, где сформулировано не очень внятно): если выбирать две точки на поверхности N-мерной сферы равномерно по её (гипер)площади, то наиболее вероятным сферическим расстоянием (т.е. длиной кратчайшего пути по поверхности той же сферы) будет pi/2. Другими словами, если мы выберем "полюс" в одной из точек, то вторая, скорее всего, будет около экватора. Это звучит куда более правдоподобно, не так ли?
Причём с ростом размерности N приближение будет становиться всё более точным, доля точек с отклонением больше любой фиксированной величины будет экспоненциально падать.
Ученые показали, почему большие нейросети работают лучше