Pull to refresh

Comments 15

Судя по объёму и сложности «статьи», нужно получить зачёт за публикацию?

излишне утрировано, вплоть до ошибочности.

В примере с ростом человека нигде не сказано, что считаем закономерностью. кусочно-линейную зависимость? полином? Что считаем ошибкой? индивидуальное отклонение? его квадрат? усредненный квадрат на наборе примероа?

Тема сама по себе интересная, я несколько новых мыслей придумал только из темы, но не надо так портить содержание.

Перепишите.

Вместо тысячи слов лучше увидеть картинки наподобие этой
image

Обьясни, примерно так, градиентный спуск в ии это поиск самого быстрого лыжника.

Для поиска используется формула, где Л1 это лыжник, Л2 это лыжник два и т. Д.

П это путь.

С это скорость.

Таким образом: ...

быстрый лыжник это хорошо, но еще лучше лыжник, который гарантированно едет до большой низины (в жизни - до равнины, но в (алгоритме) равнины может и не быть), а не застревает в каждой канаве

Блин, почему рассматривается градиентный спуск именно в машинном обучении, ведь теряется его смысл. Изначально это численный медод нахождения экстремума, те по сути решение уравнения.И обычно смысл сводится к тому, что шаг приближения делается в направлении максимального приращения ( убывания функции), для чего используют первую производную. Причем чем более "крутая" функция, тем быстрее сходимость и обратно чем более пологая, тем дольше сходимость.

вот, с этого бы начать, на простых примерах, потом обобщить до многомерного случая, показать всякие необычные случаи, и только потом рассказать, что в NN тоже применимо, и подробно показать-рассказать, как.

Нет, градиент это локальное направление наибыстрейшего убывания/возрастания функции. Градиентный спуск это итеративный процесс движения вдоль градиента. Если функция выпуклая то мы более менее гарантированно попадаем в глобальный оптимум.

Формально приравнивая градиент нулю, мы находим локальные "ямы". Проблема в том, что если функция достаточно сложная, то решение "обратной задачи" нахождения точек где градиент равен нулю, может быть сопоставимо по сложности или сложнее чем исходная задача оптимизации, да и таких "ям" может быть счетная бесконечность.

То что делают в школе приравнивая градиент нулю с ростом размерности и сложности, становится все менее и менее применимо на практике.

я указал что экстремум. просто если рассматривать далее, то экстремумы у функций бывают как локальные так и глобальные и это по сути отдельная задача для рассмотрения.Если память не изменяет, то по матану там пол семестра минимум на нахождения экстремумов функций

Блин, почему рассматривается градиентный спуск именно в машинном обучении, ведь теряется его смысл.

Ну почему же теряется? Внутри обучающейся сетки то же самое и происходит. Наоборот, считаю, при изучении машинного обучения надо это знать. Чтобы не думать, что там внутре какое-то колдунство творится.

Машинное обучение появилось сильно позже численных методов нахождения экстремумов. Можете вспомнить метод Ньютона ( частный метод градиентного спуска), половинного деления, метод Метод Рунге — Кутты это прям базовы, что на ум пришли. И все изучают примерно от простого к сложному.

Я про поиск оптимума в пространстве синоптических весов нейронов. Он же и идёт такими способами, например градиентным спуском по функции потерь от вектора весов. По крайней мере, в тех простейших нейросетях, которые я знаю)

извините за сарказм, но изначально было Градиентный спуск простыми словами ...

а вы тут

поиск оптимума в пространстве синоптических весов нейронов

Это ж никак ни помогает понять. Я бы смотрел на градиентный спуск, но начинал бы с метода Ньютона и только потом бы усложнял бы на ваше машинное обуччение

Sign up to leave a comment.

Articles