Обновить

Комментарии 6

resp = client.chat.completions.create(
    model="gpt-5",  
    messages=[
        {"role": "user", "content": "Можно было бы и получше написать."}
    ],
)

вы правы- всегда можно лучше

Как раз градиентный спуск один из самых "не крутых" методов нелинейной оптимизации. А ведь в статье можно было рассказать, почему обучают медленным спуском вместо к примеру BFGS.

Спасибо за комментарий! Да, BFGS действительно быстрее на маленьких задачах, тк он видит кривизну и прыгает прямо к минимуму, но в нейросетях с миллиардами параметров BFGS требует огромной памяти, а градиентный спуск (и особенно SGD) лёгкий, работает по кусочкам, шум от батчей помогает выбраться из мелких ямок, оэтому побеждает простота и масштаб, а не умность BFGS, но в гибридных подходах ( LoRA + L-BFGS) уже экспериментируют

А почему вы не написали про это в статье? Тогда сразу был бы виден trade off.

Добавили это в статью с таблицей и примером. Спасибо за толковый фидбек!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации