ysrgsyn21 мая в 17:23

Разбираемся в ML без воды: от базы до Attention. Часть 3: Градиентный спуск

Простой

11 мин

17K

Машинное обучение * Математика * Python *

Туториал

+14

Комментарии 12

ramil_trinion 21 мая в 18:05

Примечание: для сохранения наглядности и простоты восприятия код не будет максимально коротким или оптимизированным “под прод”

а до этого

Т.к. часть с кодом у нас встречается впервые, добавлю несколько пояснений.Работать будем, как ни странно, в питоне (у меня 3.12). В первое время из библиотек нам понадобится классический джентльменский набор: numpy, pandas, scikit-learn, matplotlib и seaborn. В дальнейшем нам понадобятся еще как минимум торч и трансформеры, но до этого пока что далеко

ysrgsyn 21 мая в 18:26

не совсем понял, где тут несостыковка

schekinfs 21 мая в 19:12

см. фото. там все четко понятно

Uint32 21 мая в 20:55

Хорошая серия статей. Спасибо.

Не понятно, кто минусует...

ysrgsyn 22 мая в 05:09

Спасибо :)

Ну может кому-то не понравилось, их право, не осуждаем)

VAF34 22 мая в 05:06

Начинает чаще встречаться специфический жаргон. Не специалистам это мешает.

ysrgsyn 22 мая в 05:13

Если не трудно, конкретизируйте, пожалуйста. Постараюсь сделать выводы и искоренить проблему :)

VAF34 22 мая в 05:14

Теперь по существу. Требование дифференцированности функций для методов уточнения весов не обязательно. Альпинист не обязан передвигать прощупывающую ногу, не отрывая ее от земли. Он может просто делать маленький шаг и оценивать куда он попал. Для альпиниста градиент дает направление быстрейшего спуска. Но при работе с весами, у каждого веса только одно направление - изменение размера.

ysrgsyn 22 мая в 06:11

Соглашусь, требование дифференцируемости, в целом, слишком сильное условие. Тем более, существуют и методы оптимизации для недифференцируемых функций.

Но: если мы уж брались за изучение классического градиентного спуска, то, согласитесь, одними частными производными сыт не будешь :)

Потому и в статье есть такая скобка

градиент (в том виде, в котором он нам интересен) существует не всегда

Что касаемо весов: "изменение одного веса" действительно живёт на прямой где можно либо вперёд, либо назад. Но мы меняем все веса сразу, а не поочередно.

Я правильно понял вашу мысль, или вы имели в виду численного приближения производной (f(x+h)-f(x))/h, вместо предельного перехода?

kuketa 22 мая в 16:09

Спасибо за статью, я очень ждал кода и дождался

а так все очень интересно, на пальцах показана мат часть во всех частях статьи, жду продолжения

dimitriansync 24 мая в 19:13

а как на практике подбирают learning rate? Просто перебором или есть какие-то рабочие методы, чтобы не угадывать вслепую?

ysrgsyn 24 мая в 19:24

Если не слишком вдаваться в подробности, то чаще всего берут 1e-3, или 1e-4

Дальше смотрят: Если лосс нестабилен, то уменьшают , если обучение медленное, увеличивают

Также на практике очень часто используют так называемый learning rate scheduler. Говоря простыми словами, сначала берут большое число чтобы все шло быстро, а потом уменьшают чтобы не попасть в ситуацию, когда лосс перепрыгивает минимум

Зарегистрируйтесь на Хабре, чтобы оставить комментарий