DanilaKhr Feb 12 2023 at 13:16

Градиентный спуск простыми словами

Easy

4 min

41K

Algorithms*Mathematics*Machine learning*Artificial Intelligence

From sandbox

Comments 15

csharpreader Feb 12 2023 at 14:17

Судя по объёму и сложности «статьи», нужно получить зачёт за публикацию?

+27

MasterMentor Feb 12 2023 at 15:30

Есть книги, из которых можно обо всем узнать и ничего не понять. (с) Гете.

YDR Feb 12 2023 at 15:38

излишне утрировано, вплоть до ошибочности.

В примере с ростом человека нигде не сказано, что считаем закономерностью. кусочно-линейную зависимость? полином? Что считаем ошибкой? индивидуальное отклонение? его квадрат? усредненный квадрат на наборе примероа?

Тема сама по себе интересная, я несколько новых мыслей придумал только из темы, но не надо так портить содержание.

Перепишите.

MasterMentor Feb 12 2023 at 15:53

На Хабре уже не единожды, гораздо лучше и полнее рассмотрена эта тема.

Из уважения к аудитории, Вы могли хотя бы прочетсь эти статьи.

https://habr.com/ru/post/714988/

https://habr.com/ru/post/332198/

https://habr.com/ru/post/354772/

https://habr.com/ru/post/413853/

+13

freeExec Feb 12 2023 at 17:01

Вместо тысячи слов лучше увидеть картинки наподобие этой

+22

VasyaPup Feb 13 2023 at 07:53

Обьясни, примерно так, градиентный спуск в ии это поиск самого быстрого лыжника.

Для поиска используется формула, где Л1 это лыжник, Л2 это лыжник два и т. Д.

П это путь.

С это скорость.

Таким образом: ...

YDR Feb 13 2023 at 08:48

быстрый лыжник это хорошо, но еще лучше лыжник, который гарантированно едет до большой низины (в жизни - до равнины, но в (алгоритме) равнины может и не быть), а не застревает в каждой канаве

PTM Feb 13 2023 at 09:53

Блин, почему рассматривается градиентный спуск именно в машинном обучении, ведь теряется его смысл. Изначально это численный медод нахождения экстремума, те по сути решение уравнения.И обычно смысл сводится к тому, что шаг приближения делается в направлении максимального приращения ( убывания функции), для чего используют первую производную. Причем чем более "крутая" функция, тем быстрее сходимость и обратно чем более пологая, тем дольше сходимость.

YDR Feb 13 2023 at 10:12

вот, с этого бы начать, на простых примерах, потом обобщить до многомерного случая, показать всякие необычные случаи, и только потом рассказать, что в NN тоже применимо, и подробно показать-рассказать, как.

thevlad Feb 13 2023 at 12:12

Нет, градиент это локальное направление наибыстрейшего убывания/возрастания функции. Градиентный спуск это итеративный процесс движения вдоль градиента. Если функция выпуклая то мы более менее гарантированно попадаем в глобальный оптимум.

Формально приравнивая градиент нулю, мы находим локальные "ямы". Проблема в том, что если функция достаточно сложная, то решение "обратной задачи" нахождения точек где градиент равен нулю, может быть сопоставимо по сложности или сложнее чем исходная задача оптимизации, да и таких "ям" может быть счетная бесконечность.

То что делают в школе приравнивая градиент нулю с ростом размерности и сложности, становится все менее и менее применимо на практике.

PTM Feb 15 2023 at 11:33

я указал что экстремум. просто если рассматривать далее, то экстремумы у функций бывают как локальные так и глобальные и это по сути отдельная задача для рассмотрения.Если память не изменяет, то по матану там пол семестра минимум на нахождения экстремумов функций

MonteDegro Feb 13 2023 at 19:10

Блин, почему рассматривается градиентный спуск именно в машинном обучении, ведь теряется его смысл.

Ну почему же теряется? Внутри обучающейся сетки то же самое и происходит. Наоборот, считаю, при изучении машинного обучения надо это знать. Чтобы не думать, что там внутре какое-то колдунство творится.

PTM Feb 15 2023 at 11:39

Машинное обучение появилось сильно позже численных методов нахождения экстремумов. Можете вспомнить метод Ньютона ( частный метод градиентного спуска), половинного деления, метод Метод Рунге — Кутты это прям базовы, что на ум пришли. И все изучают примерно от простого к сложному.

MonteDegro Feb 15 2023 at 12:17

Я про поиск оптимума в пространстве синоптических весов нейронов. Он же и идёт такими способами, например градиентным спуском по функции потерь от вектора весов. По крайней мере, в тех простейших нейросетях, которые я знаю)

-1

PTM Feb 15 2023 at 13:48

извините за сарказм, но изначально было Градиентный спуск простыми словами ...

а вы тут

поиск оптимума в пространстве синоптических весов нейронов

Это ж никак ни помогает понять. Я бы смотрел на градиентный спуск, но начинал бы с метода Ньютона и только потом бы усложнял бы на ваше машинное обуччение

Show the best of all time