Как стать автором
Обновить

Комментарии 9

Не каждый поймет, особенно кто нейросети не учил, но мне понравилось :) кармы не хватает плюсануть :(
Я не учил нейросети, но то, что увидел в этой статье — школьное определение производной и определение градиента из матанализа.
Несомненный плюс — это описано здесь с довольно интересного ракурса, очень доходчиво)
Это часть материала, которая необходима для понимания дальнейшего изложения. Автор ориентировался на разных читателей с разным уровнем подготовки.
ну исходя из того что 2х2 = 4 а по сути это 1+1+1+1 то как бы тоже понятно всем кто не учил высшию математику, но сначала оно всегда такое простое :)
Стоит заметить, что бесконечно уменьшать шаг при вычислениях на компьютере нельзя из-за ошибок округления. Пусть есть функция f и мы считаем ее численную производную как image. Тогда если в вычисления значений f_1, f_2 закралась ошибка \hat\f_1 = f_1+\delta_1, \hat_f_2 = f_2+\delta_2 (а она есть практически всегда), то \hat f' = \frac{f1+\delta_1-f_2 - \delta_2}h = f' + \frac{\delta_1-\delta_2}h. То есть уменьшение шага ведет к росту ошибок округления. Оптимальное значение шага где-то посередине — не слишком мало и не слишком велико.
Ну, собственно, автор и пишет об этом, обращая внимание на то, что перебор должен производиться с «бесконечно малым» шагом для того чтобы найти оптимальное значение.
Так я же говорю как раз о проблеме, возникающей при бесконечном уменьшении шага. В какой-то момент (в зависимости от задачи) оказывается, что с шагом 0.0000001 результаты получаются хуже, чем с 0.000001.
Да, не могу найти аргументов против, шаг нужно подбирать под каждую конкретную задачу, а не стремиться свести его к бесконечно малой величине в любой ситуации, спасибо за уточнение.
сам себе отвечу: конечно, это касается только примера с производной — многие алгоритмы прекрасно себя чувствуют при уменьшении шага (свойство корректности).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий