Pull to refresh

Ученые показали, почему большие нейросети работают лучше

Reading time2 min
Views10K

В докладе, представленном в декабре на ведущей конференции NeurIPS, Себастьен Бубек из Microsoft Research и Марк Селлке из Стэнфордского университета показали, что нейросети должны быть намного больше, чтобы избежать некоторых проблем в их работе. 

Стандартные ожидания относительно размера нейросетей основаны на анализе того, как они запоминают данные. Одной из популярных задач для нейросетей является идентификация объектов на изображениях. Чтобы создать такую нейросеть, исследователи сначала предоставляют ей множество изображений с метками объектов, обучая изучать корреляции между ними. Как только нейросеть запоминает достаточно обучающих данных, она также получает возможность предсказывать метки объектов, которые она никогда не видела, — с разной степенью точности. Этот процесс известен как обобщение.

Размер сети определяет, сколько информации она может запомнить. Изображения, например, описываются сотнями или тысячами значений — по одному на каждый пиксель. Этот набор множества свободных значений математически эквивалентен координатам точки в многомерном пространстве. Количество координат называется размерностью.

С 80-х нейросетям задавали столько n параметров, чтобы соответствовать n точкам данных — независимо от размерности данных. Однако современные нейронные сети имеют большее количество параметров, чем количество обучающих выборок. 

Исследователи рассматривали такой параметр, как надежность работы нейросети, в связи с ее масштабами. В своей работе они показывают, что избыточная параметризация необходима для надежности сети. 

Ученые показали, что для подгонки точек данных большой размерности требуется не просто n параметров, а n × d параметров, где d — размерность входных данных (например, 784 для 784-пиксельного изображения). Доказательство основано на факте из многомерной геометрии, а именно на том, что случайно распределенные точки, размещенные на поверхности сферы, почти все находятся на расстоянии полного диаметра друг от друга.

Другое исследование выявило дополнительные причины, по которым избыточная параметризация полезна. Например, это может повысить эффективность процесса обучения, а также способность нейросети к обобщению. 

Ранее Google опубликовала исследование, посвященное основным трендам машинного обучения в 2021 году. Компания предсказывает развитие более мощных моделей ML общего назначения с миллиардами и даже триллионами параметров.

Tags:
Hubs:
Total votes 11: ↑8 and ↓3+7
Comments10

Other news