Хабр доступен 24/7 благодаря поддержке друзей

Комментарии 6
resp = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "user", "content": "Можно было бы и получше написать."}
],
)Как раз градиентный спуск один из самых "не крутых" методов нелинейной оптимизации. А ведь в статье можно было рассказать, почему обучают медленным спуском вместо к примеру BFGS.
Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Градиентный спуск: как «слепой в лабиринте» находит выход в миллиардном пространстве — и почему это сердце любого ML