Больше данных — ровнее ландшафт нейросетей / Хабр

Представьте себе, что обучение нейросети – это путешествие по пересечённой местности, где высота рельефа соответствует величине функции потерь. Функция потерь измеряет, насколько сильно текущая модель ошибается на своих данных: чем выше «гора», тем хуже предсказания, и наоборот, глубокие «долины» соответствуют лучшим решениям. В многомерном пространстве миллионов параметров нейросети эта поверхность чрезвычайно сложна – она полна холмов, впадин и плато. Тем не менее, удивительным образом, современные нейросети успешно «находят путь» к низинам функции потерь, несмотря на такую сложную геометрию. Как им это удаётся, и как на этот ландшафт влияет количество данных для обучения? Недавнее исследование математиков из МФТИ проливает свет на один из ключевых факторов: увеличение объёма обучающей выборки сглаживает ландшафт ошибки, делая обучение более стабильным. Ниже мы рассмотрим, что именно представляет собой ландшафт функции потерь, почему «плоские» минимумы предпочтительнее «острых», и как больше данных и особые архитектуры сетей способны превратить опасные горные тропы оптимизации в относительно ровное плато.

Функция потерь как горный пейзаж

В основе обучения любой нейросети лежит минимизация функции потерь – некоторого показателя качества работы сети. Эта функция сопоставляет каждому набору значений параметров (весов нейронной сети) число, отражающее суммарную ошибку сети на обучающих данных. Если представить все возможные настройки параметров как пространство, а значение ошибки – как высоту, получается воображаемый «ландшафт» или поверхность потерь. Цель обучения – найти точку в этом пространстве (набор весов), где функция потерь минимальна – то есть спуститься в самую глубокую долину на этом гипер-рельефе.

Однако поверхность ошибки нейросети чрезвычайно сложна. В отличие от выпуклых функций (например, параболической чаши), у которых один глобальный минимум, у сложной нейросети могут быть тысячи и миллионы локальных минимумов – мест, где градиент (направление наибольшего спуска) обнуляется, но которые не обязательно являются лучшим из возможных решений. Кроме того, пространство параметров имеет очень высокую размерность (современные сети содержат миллионы и даже миллиарды весов), так что визуализировать или полностью понять эту поверхность затруднительно. Тем не менее, исследователи научились получать ее двумерные «срезы» и проекции, чтобы взглянуть на характер ландшафта. Эти визуализации показывают, что функция потерь глубоких сетей изобилует как пологими регионами, так и узкими острыми расщелинами.

Плоские долины против острых пиков

Ещё в 1990-х годах учёные предположили, что не все минимумы функции потерь равны. Одни минимумы могут быть “плоскими”, то есть иметь широкую область параметров с примерно одинаково низкой ошибкой, тогда как другие – “острыми”, где ошибка быстро увеличивается при малейшем отклонении параметров. Интуитивно, плоская долина ошибок означает, что сеть устойчиво хорошо работает даже при небольших изменениях весов, а острый минимум – что решение хрупкое, сильно «настроено» под конкретные значения параметров. Считается, что плоские минимумы связаны с лучшей обобщающей способностью сети – ее умением правильно работать на новых данных, не виденных во время обучения. Идея “плоских минимумов” получила подтверждение: например, в 2017 году исследователи обнаружили, что при обучении с очень большими батчами (большим числом примеров за итерацию) алгоритм сходится к более острым минимумам, и такие модели хуже обобщают на тестовых данных. Напротив, обучение с небольшими батчами за счёт шума градиента склоняет алгоритм к поиску более пологих областей минимума. Это наблюдение объяснило практический феномен: модели, обученные на огромных батчах, часто показывали худшую точность на проверочных наборах по сравнению с теми, что обучались на мелких порциях данных – причиной оказалась разница в геометрии найденных минимумов.

Более того, дальнейшие эксперименты и визуализации подтвердили связь геометрии ландшафта с качеством работы сети. Научившись строить двумерные контурные карты поверхности потерь, исследователи увидели, что решения с высокой обобщающей способностью действительно лежат в широких, плавно изогнутых впадинах ландшафта, тогда как переобученные модели часто застревают в узких “колодцах” ошибки. Развитие методов визуализации функции потерь в 2018 году позволило наглядно сравнить рельеф для разных случаев: например, как меняется форма поверхности при добавлении skip connection (пропускных соединений) в глубоких сетях, или при различном размере батча и коэффициенте регуляризации. Эти исследования не только дали красивые картинки, но и количественно подтвердили: плоскость минимума (связанная с малыми собственными значениями гессиана – матрицы вторых производных функции потерь) коррелирует с лучшим качеством на новых данных, тогда как узкие резкие минимумы (большие собственные значения гессиана) часто соответствуют переобучению.

Когда данных становится больше: эффект размерa выборки

В обычном машинном обучении давно известен принцип: чем больше данных для обучения, тем лучше модель сможет обобщать закономерности, а не запоминать частные случаи. С точки зрения нашей метафоры ландшафта, добавление обучающих примеров – это словно уточнение карты местности: мы измеряем ошибку модели на всё большем количестве точек, всё точнее определяя форму поверхности. Можно ожидать, что с ростом выборки эмпирическая функция потерь (ошибка на данных выборки) всё ближе приближается к настоящей, истинной функции риска (ошибке на бесконечном количестве примеров). В статистике этот интуитивный факт подкреплён законом больших чисел: оценка среднего ошибки становится всё более стабильной по мере увеличения числа примеров. Но как именно дополнительная информация (больше данных) сказывается на самом рельефе функции потерь нейросети? Меняются ли положение и глубина минимумов? Становится ли поверхность более гладкой?

До недавнего времени этот вопрос оставался без чёткого ответа. Большая часть исследований фокусировалась либо на свойствах алгоритмов оптимизации, либо на влиянии архитектуры сети, либо на экстремальных режимах (например, бесконечно широкие сети). Влияние же объёма данных на форму ландшафта ошибки изучали мало. Интуитивно, если у нас очень мало данных, поверхность ошибки будет крайне «шумной» – один-два примера могут резко менять наклон и форму функции потерь, создавая множество локальных впадин, соответствующих подгонке под каждый отдельный образец. С увеличением данных случайные колебания должны усредняться, и пейзаж ошибки – сглаживаться. Недавно эту интуицию удалось подтвердить строго и количественно.

Теория от МФТИ: стабилизация ландшафта при росте выборки

Группа математиков из Московского физико-технического института (МФТИ) – Никита Киселёв и Андрей Грабовой – занялись именно этой проблемой: как изменяется поверхность потерь нейросети при добавлении новых обучающих данных. В 2025 году они опубликовали работу в журнале Doklady Mathematics, где представили теоретическое доказательство того, что ландшафт функции потерь сходится по мере роста выборки. Проще говоря, если постепенно увеличивать число обучающих примеров, абсолютная разница между значениями функции потерь на выборке из объектов и на выборке из N+1 объектов будет стремиться к нулю при $N \to \infty$ . Добавление каждого нового образца приводит лишь к незначительному изменению среднего уровня ошибки, и это изменение со временем становится всё меньше. В пределе бесконечно большого датасета поверхность ошибки стабилизируется, практически переставая зависеть от включения дополнительного единичного примера.

Исследователи не только сформулировали это качественно, но и вывели верхнюю границу на изменение функции потерь при добавлении нового объекта. Ключевым инструментом анализа стал гессиан – матрица вторых производных функции потерь по параметрам сети. Грубо говоря, гессиан характеризует кривизну поверхности: его собственные значения отражают «жёсткость» искривления вдоль разных направлений в пространстве весов. Киселёв и Грабовой доказали теорему, устанавливающую верхнюю границу для спектральной нормы гессиана в полностью связной (полносвязной) нейронной сети определённой архитектуры. Из этой границы следует оценка, как сильно максимум может измениться значение функции потерь при добавлении новых данных. В частности, оказалось, что рост числа слоёв (глубины сети) влияет на норму гессиана – грубо говоря, слишком глубокие сети могут обладать большей кривизной и, как следствие, медленнее достигают стабилизации ландшафта с ростом выборки. Напротив, увеличение ширины слоёв (числа нейронов в каждом) не ухудшает сходимость поверхности ошибки и даже может улучшать ее, если масштабы весов остаются контролируемыми. Итоговая оценка из их теории показала, что различие между функцией потерь на выборках размера и N+1 убывает сублинейно, приблизительно пропорционально 1/N . То есть, условно, добавление вторых 1000 примеров изменит средний уровень ошибки примерно вдвое меньше, чем добавление первых 1000 примеров.

Важно подчеркнуть, что речь идёт не просто об усреднённой ошибке на всём множестве данных, а о локальной геометрии поверхности. Другими словами, не только значение потерь на минимуме стабилизируется при большом , но и форма поверхности в окрестности минимума становится всё менее подверженной влиянию новых данных. Если у нас уже очень большая выборка и мы нашли близкий к оптимальному набор весов, то включение ещё одного примера практически не сдвинет нас из этой оптимальной «долины». Ландшафт в районе минимума станет гладким, без неожиданных резких провалов от нового объекта.

Практическая проверка: эксперименты на нейросетях

Конечно, одна теория – хорошо, но оставался вопрос: а действительно ли реальные нейросети демонстрируют такое поведение? Чтобы подтвердить свои выводы, авторы провели серию экспериментов на задачах распознавания изображений. Они обучали простую полносвязную нейронную сеть на различных поднаборах популярных датасетов (MNIST и других) и измеряли, как величина разницы функции потерь между выборками разного размера меняется при росте объёма данных. Для этого сеть сначала тренировали на всей выборке, получая параметры, близкие к оптимальным. Затем фиксировали эти параметры и вычисляли функцию потерь на всё меньших и меньших подмножествах данных, сравнивая её с исходной. Получались кривые зависимости $\Delta L$ – разницы в среднем значении потерь – от размера выборки . Эти графики ясно показывали убывающий тренд, сходящийся к нулю: чем больше данных, тем меньше дополнительная ошибка от отсутствия одного объекта. Причём форма убывания соответствовала теоретически предсказанной сублинейной (приближённо гиперболической) зависимости.

Интересно, что авторы также варьировали архитектуру сети – меняли число слоёв и число нейронов – чтобы эмпирически проверить влияние структуры сети на стабилизацию ландшафта. Результаты подтвердили их теоретические заключения: увеличение числа слоёв (более глубокая сеть) приводило к несколько большим значениям $\Delta L$ при том же количестве данных (то есть поверхность сходилась медленнее), тогда как увеличение ширины слоя заметно не ухудшало, а порой даже улучшало сглаженность ландшафта. Глубокие узкие сети проявляли более «рваный» ландшафт потерь на малых выборках, тогда как более широкие сети давали более гладкую поверхность даже при относительно небольшом объёме данных. Таким образом, эксперименты не только подтвердили сам феномен сходимости ландшафта, но и подчеркнули роль архитектурных гиперпараметров в нём.

Влияние архитектуры: глубина, ширина и пропускные связи

Архитектура нейросети – её структура слоёв и соединений – существенно влияет на геометрию функции потерь. Ещё до обсуждаемого исследования ученые отмечали, что глубокие сети (с большим числом слоёв) нередко страдают проблемами оптимизации: градиентный спуск в них сталкивался с “плато” или неустойчивостью градиентов. Частично это связывали с появлением многочисленных седловых точек – областей, где градиент нулевой, но точка не является минимумом (функция убывает в одних направлениях и возрастает в других). Каждая добавленная нелинейность и слой теорет��чески усложняет ландшафт, вводя новые измерения извилистости. Однако, в реальности оказалось, что правильная архитектура может смягчить эти трудности.

Одним из прорывов стало введение skip connections (переходов, пропускающих один или несколько слоёв, как в резидуальных сетях ResNet). В 2016 году появление ResNet позволило успешно обучать чрезвычайно глубокие сети (с сотнями слоёв), чего раньше достичь не удавалось. Изначально это объясняли борьбой с затухающим градиентом, но позднее визуализации показали ещё один аспект: пропускные соединения буквально выравнивают ландшафт ошибки. Они обеспечивают более прямой путь для потока градиента и фактически уменьшают эффективную “глубину” некоторых обходов в графе сети. В результате, функции потерь сетей с skip connections имеют гораздо более плавный вид, без тех хаотичных резких всплесков, что наблюдаются в эквивалентных сетях без таких связей.

Пример визуализации поверхности потерь нейросети без пропускных соединений (ResNet-56 без skip connections). Видно, что ландшафт очень «неровный» – множество острых пиков и впадин затрудняют поиск глобального минимума. Красный цвет отмечает области с высокой ошибкой, синий – с низкой. — *Пример визуализации поверхности потерь нейросети* ***без*** пропускных соединений (ResNet-56 без skip connections). Видно, что ландшафт очень «неровный» – множество острых пиков и впадин затрудняют поиск глобального минимума. Красный цвет отмечает области с высокой ошибкой, синий – с низкой.

Для сравнения, поверхность потерь аналогичной нейросети с пропускными связями (ResNet-56 с skip connections) значительно более гладкая и «выположенная». Добавление skip connections устраняет резкие разрывы, превращая ландшафт в широкую долину: оптимизация по такому рельефу проходит легче, и найденный минимум оказывается более плоским. — *Для сравнения, поверхность потерь аналогичной нейросети* с пропускными связями (ResNet-56 с skip connections) значительно более гладкая и «выположенная». Добавление skip connections устраняет резкие разрывы, превращая ландшафт в широкую долину: оптимизация по такому рельефу проходит легче, и найденный минимум оказывается более плоским.

Как видно на иллюстрациях, резидуальные связи приводят к своеобразной “конвексификации” ландшафта – в центре графика ошибки появляется большая область, близкая к выпуклой чаше, окружённой более хаотичными краями. Без skip connections же даже умеренное увеличение глубины (с 56 до 110 слоёв) превращает относительно гладкий пейзаж в чрезвычайно пересечённый, хаотичный ландшафт с множеством локальных препятствий. Таким образом, архитектурные приёмы вроде пропускных связей и увеличения ширины слоёв фактически сдвигают границу возникновения “хаоса” в функции потерь: сеть может быть гораздо глубже, прежде чем её поверхность ошибки станет неуправляемо сложной.

Стоит упомянуть и другой теоретический результат, связанный с архитектурой: если сеть имеет хотя бы один слой настолько широкий, что число нейронов превышает число обучающих примеров, то практически все локальные минимумы становятся глобальными. Про��е говоря, чрезмерно переопределённая сеть (слишком много параметров на количество данных) обладает столь большим пространством возможностей, что она может достичь нулевой ошибки множеством разных способов, и практически любая ловушка локального минимума не хуже глобального. Это частично объясняет, почему современные сети с миллионами параметров умудряются оптимизироваться до столь малых значений ошибки: у них просто нет «настоящих» плохих локальных минимумов – почти любое найденное ими достаточно глубокое ущелье приводит в ту же самую глубокую долину глобального минимума. Правда, это утверждение теоретически строго верно лишь при некоторых упрощающих допущениях (например, аналитичности активаций и квадратичной ошибке), но аналогичные идеи получили развитие и в более общем случае. Теоремы о сходимости градиентного спуска в перепараметризированных сетях (работы 2019–2020 гг.) показывают, что если сеть достаточно широка на каждом слое, то градиентный метод с большой вероятностью найдёт глобальный минимум ошибки.

Совокупность этих результатов – от эмпирических визуализаций до строгих теорем – рисует связанную картину: увеличивая сложность модели (глубину) или уменьшая количество данных, мы “вздыбливаем” ландшафт потерь, усложняя задачу оптимизации. Обратные меры – расширение слоёв, введение пропускных связей, увеличение объёма данных – сглаживают и упорядочивают этот ландшафт, помогая алгоритмам находить хорошие решения.

Выводы и перспективы

Итак, что же нам даёт понимание того, что ландшафт функции потерь нейросе��и стабилизируется при увеличении обучающей выборки? Прежде всего, это фундаментальный теоретический результат, укрепляющий мост между статистикой и глубоким обучением: в пределе очень больших данных поведение нейросети становится более предсказуемым и устойчивым. Можно сказать, что при бесконечной выборке проблема обучения нейросети перестаёт быть “поиском иголки в стоге сена” среди множества минимумов – вместо этого ландшафт ошибки вырождается в единственную большую плоскую долину, соответствующую истинному распределению данных. Практически это, конечно, идеализированный сценарий, но уже при конечных, достижимых объёмах данных мы выигрываем в стабильности.

Результат от МФТИ имеет и прикладной аспект: он подводит математическую базу под интуитивное правило о возврате на вложения в данные. Зная, что добавление новых данных даёт всё меньший прирост (в терминах снижения функции потерь), можно более осознанно решать, когда дальнейший сбор данных перестаёт быть эффективным. В будущем такие оценки могут лечь в основу методов определения необходимого размера выборки: например, алгоритм может анализировать изменение ошибки при постепенном увеличении обучающей выборки и указывать, когда кривая $\Delta L(N)$ приблизится к нулю, сигнализируя, что модель уже “насытилась” информацией.

Кроме того, понимание геометрии функции потерь помогает в разработке новых методов оптимизации. Если известно, что в нашей задаче ландшафт особенно “рваный” (например, из-за очень глубоких слоёв или скудных данных), можно специально вводить методы сглаживания. Уже существуют техники, прямо нацеленные на поиск плоских минимумов – например, Sharpness-Aware Minimization (SAM), методика, добавляющая к шагу оптимизации небольшое возмущение весов и тем самым поощряющая алгоритм находить решения, устойчивые к таким возмущениям (то есть плоские области). Понимая, как архитектура или размер данных влияет на пейзаж ошибки, мы можем сочетать архитектурные улучшения (скажем, те же skip connections или нормализацию) с алгоритмическими приёмами (шум в градиенте, специальные регуляризаторы), чтобы намеренно сделать ландшафт более благоприятным для оптимизации.

Новое исследование также порождает дальнейшие вопросы. Например, как быстро нужно увеличивать выборку, чтобы в режиме онлайн-обучения гарантировать стабильность? Что происходит с ландшафтом, когда данных становится больше параметров (режим, обратный привычному в глубоком обучении)? Возможно, существуют фазы или переходы в поведении функции потерь – аналогично феномену “двойного спада” (double descent), наблюдаемому для ошибки обобщения при определённых соотношениях данных и параметров. Понимание ландшафта ошибки – это своего рода новая “теория эволюции” для нейросетей: она объясняет, как сложные системы самоорганизуются, почему обучение вообще возможно в настолько огромном пространстве, и как внешние условия (данные, архитектура, алгоритм) определяют финальный исход.

В стиле научно-популярной метафоры можно сказать, что глубокое обучение превращает первоначально хаотичные горы ошибки в обитаемые высокогорные плато. Большие данные сглаживают дорожки, умные архитектуры прокладывают серпантины в обход обрывов, а адаптивные оптимизаторы действуют как опытные гиды. В итоге нейросеть покоряет свой Эверест – достигает глубокого минимума – не вслепую, а опираясь на выравнивающиеся контуры ландшафта. И хотя впереди ещё много белых пятен на карте этого высокомерного пейзажа, каждый новый теоретический результат, подобный работе исследователей МФТИ, делает контуры ландшафта яснее, а маршрут к вершине – более надёжным.

Литература

Kiselev N. S., Grabovoy A. V. (2025). Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes. Doklady Mathematics, 110(1), 49–61. (Теоретический анализ сходимости ландшафта функции потерь при росте выборки; доказательство границ на гессиан и экспериментальное подтверждение на задачах классификации изображений).
Hochreiter S., Schmidhuber J. (1997). Flat minima. Neural Computation, 9(1), 1–42. (Классическая работа, введшая понятие «плоских минимумов» в нейронных сетях и связавшая их с лучшей обобщающей способностью моделей).
Choromanska A. et al. (2015). The Loss Surfaces of Multilayer Networks. Proceedings of AISTATS 2015, PMLR 38:192-204. (Одна из первых попыток теоретически и эмпирически описать ландшафт ошибки глубоких сетей; модельное представление поверхности потерь как энергетического ландшафта спин-стекла с множеством локальных минимумов).
Keskar N. S. et al. (2017). On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima. Proceedings of ICLR 2017. (Показано, что обучение на больших батчах приводит к нахождению более «ост��ых» минимумов и ухудшению обобщения; введено практическое разделение минимумов на sharp vs. flat и связанная гипотеза).
Li H. et al. (2018). Visualizing the Loss Landscape of Neural Nets. Proceedings of NeurIPS 2018, 6389–6399. (Разработка методов визуализации поверхности потерь нейросетей в 1-2 измерениях с помощью filter normalization; демонстрация влияния архитектуры (skip connections, ширина слоёв) и гиперпараметров обучения на геометрию ландшафта, включая эффект «convexification» от skip connections).
Nguyen Q., Hein M. (2017). The Loss Surface of Deep and Wide Neural Networks. Proceedings of ICML 2017. (Теоретический результат: для достаточно широкой полносвязной сети почти все локальные минимумы эквивалентны глобальному; отсутствие «плохих» локальных минимумов при экстремальной ширине слоя).
Allen-Zhu Z., Li Y., Song Z. (2019). A convergence theory for deep learning via over-parameterization. Proceedings of ICML 2019. (Один из ряда теоретических трудов, доказывающих сходимость градиентного спуска к глобальному минимуму в переобученных (over-parameterized) нейросетях; устанавливается роль избыточного количества параметров для устранения ловушек оптимизации).
You Y. et al. (2017). Large Batch Training of Convolutional Networks. arXiv:1708.03888. (Параллельно с Keskar и др. изучает влияние размера батча; показывает методики, позволяющие обучать с экстремально большими батчами без потери качества, что косвенно связано с управлением формой ландшафта ошибки через настройку оптимизатора).
Zagoruyko S., Komodakis N. (2016). Wide Residual Networks. Proceedings of BMVC 2016. (Показывает, что увеличение ширины ResNet (при сокращении глубины) может давать такой же эффект качества, как и очень глубокие сети; широкие о��таточные сети легче оптимизировать, что согласуется с идеей о более гладком ландшафте для более широких архитектур).
Foret P. et al. (2021). Sharpness-Aware Minimization for Efficiently Improving Generalization. Proceedings of ICLR 2021. (Вводится метод оптимизации SAM, напрямую нацеленный на плоские минимумы; связь между «остротой» минимума и обобщающей способностью используется для улучшения качества моделей).

Больше данных — ровнее ландшафт нейросетей