alexkolzov Oct 2 2019 at 19:01

Ох уж этот метод Ньютона

8 min

36K

Algorithms*Mathematics*Machine learning*

О методах численной оптимизации написано много. Это и понятно, особенно на фоне тех успехов, которые в последнее время демонстрируют глубокие нейронные сети. И очень отрадно, что хотя бы часть энтузиастов интересуется не только тем, как забомбить свою нейросеточку на набравшей в этих ваших интернетах популярность фреймворках, но и тем, как и почему все это вообще работает. Однако мне в последнее время пришлось отметить, что при изложении вопросов, связанных с обучением нейросетей (и не только с обучением, и не только сетей), в том числе на Хабре, все чаще впроброс используется ряд “хорошо известных” утверждений, справедливость которых, мягко говоря, сомнительна. Среди таких сомнительных утверждений:

Методы второго и более порядков плохо работают в задачах обучения нейросетей. Потомучто.
Метод Ньютона требует положительной определенности матрицы Гессе (вторых производных) и поэтому плохо работает.
Метод Левенберга-Марквардта — компромисс между градиентным спуском и методом Ньютона и вообще эвристичекий.

и т.д. Чем продолжать этот список, лучше перейдем к делу. В этом посте рассмотрим второе утверждение, поскольку его я только на Хабре встречал как минимум дважды. Первый вопрос затрону только в той части, что касается метода Ньютона, поскольку он куда более обширен. Третий и остальные оставим до лучших времен.

Центром нашего внимания будет задача безусловной оптимизации $"f(x)\rightarrow\min"$ , где $"x=(x_{1},x_{2},\dots)"$ — точка векторного пространства, или просто — вектор. Естественно, что эту задачу решить тем проще, чем больше мы знаем об "f"

. Обычно она предполагается дифференцируемой по каждому аргументу $"x_{k}"$ , причем столько раз, сколько требуется для наших грязных дел. Хорошо известно, что необходимым условием того, что в точке $"x^{*}"$ достигается минимум, является равенство градиента функции $"\bigtriangledown f(x^{*})"$ в этой точке нулю. Отсюда моментально получаем следующий метод минимизации:

Решить уравнение $"\bigtriangledown f(x)=0"$ .

Задача, мягко говоря, непростая. Точно не проще, чем исходная. Однако на этом моменте сразу можно отметить связь между задачей минимизации и задачей решения системы нелинейных уравнений. Эта связь нам еще аукнется при рассмотрении метода Левенберга-Марквардта (когда до него доберемся). А пока вспомним (или узнаем), что одним из наиболее часто применяемых методов для решения систем нелинейных уравнения является метод Ньютона. Заключается он в том, что для решения уравнения "F(x)=0"

мы, начиная с некоторого начального приближения $"x_{0}"$ , строим последовательность

$"x_{i+1}=x_{i}-H^{-1}(x_{i})F(x_{i})"$ – явный метод Ньютона

или

$" \begin{cases} H(x_{i})p_{i}=-F(x_{i})\\ x_{i+1}=x_{i}+p_{i} \end{cases} "$ – неявный метод Ньютона

где "H"

– матрица, составленная из частных производных функции "F"

. Естественно, что в общем случае, когда система нелинейных уравнений просто дана нам в ощущениях, требовать что-либо от матрицы "H"

мы не вправе. В случае, когда уравнение представляет собой условие минимума для какой-то функции, то мы можем утверждать, что матрица "H"

симметрична. Но не более.

Метод Ньютона для решения систем нелинейных уравнений весьма неплохо изучен. И вот ведь штука — для его сходимости не требуется положительная определенность матрицы "H"

. Да и не может требоваться — иначе ему была бы грош цена. Вместо этого существуют другие условия, которые обеспечивают локальную сходимость данного метода и которые мы здесь рассматривать не будем, отправляя заинтересованных к специализированной литературе (или в комментарии). Получаем, что утверждение 2 неверно.

Так?

И да, и нет. Засада здесь в слове локальная перед словом сходимость. Оно означает, что начальное приближение $"x_{0}"$ должно быть “достаточно близким” к решению, в противном случае на каждом шаге мы будем все дальше и дальше удаляться от оного. Что же делать? Я не буду вдаваться в детали того, как эту проблему решают для систем нелинейных уравнений общего вида. Вместо этого вернемся к нашей задаче оптимизации. Первая ошибка утверждения 2 на самом деле в том, что обычно говоря о методе Ньютона в задачах оптимизации имеют ввиду его модификацию — демпфированный метод Ньютона, в котором последовательность приближений строится по правилу

$"x_{i+1}=x_{i}-\alpha_{i}H^{-1}(x_{i})F(x_{i})"$ – явный демпфированный метод Ньютона

$" \begin{cases} H(x_{i})p_{i}=-F(x_{i})\\ x_{i+1}=x_{i}+\alpha_{i}p_{i} \end{cases} "$ – неявный демпфированный метод Ньютона

Здесь последовательность $"\{\alpha_{i}\}"$ является параметром метода и ее построение представляет собой отдельную задачу. В задачах минимизации естественным при выборе $"\alpha_{i}"$ будет требование, чтобы на каждой итерации значение функции f уменьшалось, т.е. $"f(x_{i+1}) < f(x_{i})"$ . Возникает закономерный вопрос: а существует ли вообще такое (положительное) $"\alpha_{i}"$ ? И если ответ на этот вопрос положителен, то $"p_{i}"$ называют направлением спуска. Тогда вопрос можно поставить таким образом:
когда направление, генерируемое методом Ньютона, является направлением спуска?
И для ответа на него придется посмотреть на задачу минимизации с другого бока.

Методы спуска

Для задачи минимизации вполне естественным кажется такой подход: начиная с некоторой произвольной точки, выберем некоторым образом направление p и сделаем в этом направлении шаг $"\alpha p"$ . Если $"f(x+\alpha p) < f(x)"$ , то возьмем $"x+\alpha p"$ в качестве новой начальной точки и повторим процедуру. Если направление выбирается произвольно, то такой метод иногда называют методом случайного блуждания. Можно в качестве направления брать вектора единичного базиса — то есть делать шаг только по одной координате, такой метод называют методом покоординатного спуска. Стоит ли говорить, что они неэффективны? Для того, чтобы такой подход хорошо работал, нам нужны некоторые дополнительные гарантии. Для этого введем вспомогательную функцию "g(p)=f(x+p)"

. Думаю, вполне очевидно, что минимизация "f"

полностью эквивалентна минимизации "g"

. Если

дифференцируема, то "g"

представима в виде

$"g(p)=f(x)+\bigtriangledown f^{T}(x)p+o(\parallel p\parallel^{2})"$

и если $"\parallel p\parallel"$ достаточно мало, то $"g(p)\approx\bar{g}(p)=f(x)+\bigtriangledown f^{T}(x)p"$ . Можем теперь попробовать подменить задачу минимизации "g(p)"

задачей минимизации ее приближения (или модели) $"\bar{g}(p)"$ . Кстати, все методы, основанные на использовании модели $"\bar{g}(p)"$ называются градиентными. Но вот ведь беда, $"\bar{g}"$ – линейная функция и, следовательно, минимума у нее нет. Для разрешения этой проблемы добавим ограничение на длину шага, который мы хотим сделать. В данном случае это вполне естественное требование — ведь наша модель более-менее корректно описывает целевую функцию только в достаточно малой окрестности. В результате получаем дополнительную задачу условной оптимизации:

$\\\bar{g}(p) =f(x)+\bigtriangledown f^{T}(x)p\rightarrow\min \\ \parallel p\parallel_{2}=\Delta$

У этой задачи есть очевидное решение: $"p=-\beta\bigtriangledown f(x)"$ , где $"\beta"$ – множитель, гарантирующий выполнение ограничения. Тогда итерации метода спуска примут вид

$"x_{i+1}=x_{i}-\beta\bigtriangledown f(x_{i})"$ ,

в котором мы узнаем широко известный метод градиентного спуска. Параметр $"\beta"$ , который обычно называют скоростью спуска, теперь приобрел вполне понятный смысл, а его значение определяется из условия, чтобы новая точка лежала на сфере заданного радиуса, очерченной вокруг старой точки.

Исходя из свойств построенной модели целевой функции мы можем утверждать, что найдется такое $"\Delta"$ , пусть даже очень маленькое, что если $"\bar{g}(p) < \bar{g}(0)"$ , то "g(p) < g(0)"

. Примечательно, что в данном случае направление, в котором мы будем двигаться, никак не зависит от величины радиуса этой сферы. Тогда мы можем избрать один из следующих путей:

Подбирать по некоторой методике величину $"\Delta"$ .
Поставить задачу выбора соответствующего значения $"\beta"$ , обеспечивающее уменьшение значения целевой функции.

Первый подход характерен для методов доверительного региона, второй приводит к постановке вспомогательной задачи т.н. линейного поиска (LineSearch). В данном конкретном случае различия между этими подходами невелики и рассматривать их мы не будем. Вместо этого обратим внимание на следующее:

а почему, собственно, мы ищем смещение , лежащее именно на сфере?

В самом деле, мы вполне могли бы заменить это ограничение требованием, например, чтобы p принадлежало поверхности куба, то есть выполнялось $"\parallel p\parallel_{\infty}=\Delta"$ (в данном случае это не слишком разумно, но почему бы и нет), или некоторой эллиптической поверхности? Это уже кажется вполне логичным, если вспомнить про проблемы, возникающие при минимизации овражных функций. Суть проблемы в том, что вдоль одних координатных линий функция изменяется существенно быстрее, чем вдоль других. Из-за этого мы получаем, что если приращение должно принадлежать сфере, то величина $"\Delta"$ , при которой обеспечивается “спуск”, должна быть очень маленькой. А это ведет к тому, что достижение минимума потребует очень большого количества шагов. Но если вместо этого взять в качестве окрестности подходящий эллипс, то эта проблема как по волшебству сойдет на нет.

Условием принадлежности точки эллиптической поверхности может быть записано в виде $"\parallel p\parallel_{B}=\sqrt{p^{T}Bp}=\Delta"$ , где "B"

– некоторая положительно определенная матрица, также называемая метрикой. Норму $"\parallel\cdot\parallel_{B}"$ называют эллиптической нормой, индуцированной матрицей "B"

. Что это за матрица и откуда ее взять — рассмотрим позднее, а сейчас приходим к новой задаче.

$\\\bar{g}(p) =f(x)+\bigtriangledown f^{T}(x)p\rightarrow\min \\ \dfrac{1}{2}\parallel p\parallel_{B}^{2}=\Delta$

Квадрат нормы и множитель 1/2 здесь исключительно для удобства, чтобы не возиться с корнями. Применив метод множителей Лагранжа, получим связанную задачу безусловной оптимизации

$f(x)+\bigtriangledown f^{T}(x)p+\dfrac{\lambda}{2}p^{T}Bp-\lambda\Delta\rightarrow\min$

Необходимым условием минимума для нее является

$\bigtriangledown f(x)+\lambda Bp=0$ , или $"B\left(\lambda p\right)=-\bigtriangledown f(x)"$ , откуда

$p=-\dfrac{1}{\lambda}B^{-1}\bigtriangledown f(x)=\dfrac{1}{\lambda}\bar{p}$

$\\\dfrac{1}{\lambda^{2}}\left(B^{-1}\bigtriangledown f(x)\right)^{T}B\left(B^{-1}\bigtriangledown f(x)\right)=\dfrac{1}{\lambda^{2}}\bigtriangledown f(x)^{T}B^{-1}BB^{-1}\bigtriangledown f(x)= \\ =\dfrac{1}{\lambda^{2}}\bigtriangledown f(x)^{T}B^{-1}\bigtriangledown f(x)=\Delta$

$\lambda=\sqrt{\dfrac{1}{\Delta}\bigtriangledown f(x)^{T}B^{-1}\bigtriangledown f(x)}>0$

Опять видим, что направление $"\bar{p}=-B^{-1}\bigtriangledown f(x)"$ , в котором мы будем двигаться, не зависит от значения $"\Delta"$ – только от матрицы "B"

. И снова, мы можем либо подбирать $"\Delta"$ , что чревато необходимостью вычисления $"\lambda"$ и явного обращения матрицы "B"

, либо решать вспомогательную задачу по поиску подходящего смещения $"x_{i+1}=x_{i}+\beta\bar{p}_{i}"$ . Поскольку $"\lambda>0"$ , решение у этой вспомогательной задачи гарантированно существует.

Так что же это должна быть за матрица B? Мы ограничимся умозрительными представлениями. Если целевая функция "f"

– квадратичная, то есть имеет вид $"f(x)=a+b^{T}x+x^{T}Hx"$ , где "H"

положительно определена, то вполне очевидно, что наилучшим кандидатом на роль матрицы "B"

является гессиан "H"

, поскольку в этом случае потребуется одна итерация построенного нами метода спуска. Если же H не является положительно определенной, то она не может являться метрикой, и построенные с ней итерации являются итерациями демпфированного метода Ньютона, но не являются итерациями метода спуска. Наконец мы можем дать строгий ответ на

Вопрос: обязана ли матрица Гессе в методе Ньютона быть положительно определенной?
Ответ: нет, не обязана ни в стандартном, ни в демпфированном методе Ньютона. Но если это условие выполнено, то демпфированный метод Ньютона является методом спуска и обладает свойством глобальной, а не только локальной сходимости.

В качестве иллюстрации посмотрим, как выглядят доверительные регионы в случае минимизации всем известной функции Розенброка методами градиентного спуска и методом Ньютона, и как форма регионов влияет на сходимость процесса.

Вот так ведет себя метод спуска со сферическим доверительным регионом, он же — градиентный спуск. Все как по учебнику — мы застряли в каньоне.

А это мы получаем, если доверительный регион имеет форму эллипса, определяемого матрицей Гессе. Это не что иное, как итерации демпфированного метода Ньютона.

Остался нераскрытым только вопрос о том, что делать, если матрица Гессе не является положительно определенной. Вариантов много. Первый — забить. Может, вам повезет и итерации Ньютона сойдутся и без этого свойства. Такое вполне реально, особенно на финальных этапах процесса минимизации, когда вы уже достаточно близки к решению. В таком случае можно использовать итерации стандартного метода Ньютона, не утруждая себя поисками допустимой для спуска окрестности. Либо использовать итерации демпфированного метода Ньютона и в случае $"\beta=0"$ , то есть в случае, когда полученное направление не является направлением спуска, поменять его, скажем, на антиградиент. Только не надо явным образом проверять, является ли гессиан положительно определенным по критерию Сильвестра, как это делалось здесь!!!. Это расточительно и бессмысленно.
Более тонкие методы предполагают построение матрицы, в некотором смысле близкую к матрице Гессе, но обладающую свойством положительной определенности, в частности, путем коррекции собственных значений. Отдельную тему составляют квазиньютоновские методы, или методы переменной метрики, которые гарантируют положительную определенность матрицы B и не требуют вычисления вторых производных. В общем, подробное обсуждение этих вопросов сильно выходит за рамки данной статьи.

Да, и кстати, из сказанного следует, что демпфированный метод Ньютона при положительной определенности гессиана — градиентный метод. Как и квазиньютоновские методы. И многие другие, основанные на раздельном выборе направления и величины шага. Так что противопоставлять метод Ньютона градиентным терминологически неверно.

Подытожим

Метод Ньютона, о котором часто вспоминают при обсуждении методов минимизации — это как правило вовсе не метод Ньютона в его классическом понимании, а метод спуска с метрикой, задаваемой гессианом целевой функции. И да, он сходится глобально в случае, если гессиан всюду положительно определен. Это возможно только для выпуклых функций, которые в практике встречаются гораздо реже, чем хотелось бы, так что в общем случае без соответствующих модификаций применение метода Ньютона (все же не будем отрываться от коллектива и продолжим называть его так) не гарантирует правильного результата. Обучение нейросетей, даже неглубоких, обычно приводит к невыпуклым задачам оптимизации с множеством локальных минимумов. И здесь новая засада. Метод Ньютона обычно сходится (если сходится) быстро. В смысле очень быстро. И это, как ни странно, плохо, поскольку мы за несколько итераций приходим к локальному минимуму. А он для функций со сложным рельефом может быть намного хуже глобального. Градиентный спуск с линейным поиском сходится гораздо медленнее, но с большей вероятностью “перескакивает” хребты целевой функции, что очень важно на ранних этапах минимизации. Если вы уже неплохо уменьшили величину целевой функции, а сходимость градиентного спуска существенно замедлилась, то здесь изменение метрики вполне может ускорить процесс, но это — для конечных стадий.

Разумеется, данный аргумент не универсален, не бесспорен и в ряде случаев даже неверен. Как и само утверждение о том, что градиентные методы лучше всех работают в задачах обучения.

Hubs: