@Nikta328 окт в 13:33

Градиентный спуск: как «слепой в лабиринте» находит выход в миллиардном пространстве — и почему это сердце любого ML

3 мин

1.4K

Искусственный интеллектМашинное обучение *

Комментарии 6

resp = client.chat.completions.create(
    model="gpt-5",  
    messages=[
        {"role": "user", "content": "Можно было бы и получше написать."}
    ],
)

@Nikta3 29 окт в 05:22

вы правы- всегда можно лучше

@Gay_Lussak 28 окт в 19:12

Как раз градиентный спуск один из самых "не крутых" методов нелинейной оптимизации. А ведь в статье можно было рассказать, почему обучают медленным спуском вместо к примеру BFGS.

@Nikta3 29 окт в 05:21

Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют

@Gay_Lussak 29 окт в 08:36

А почему вы не написали про это в статье? Тогда сразу был бы виден trade off.

@Nikta3 29 окт в 08:42

Добавили это в статью с таблицей и примером. Спасибо за толковый фидбек!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий