Пост @CrXf_17 — *nix — 16.11 11:07 / Хабр

CrXf_17

16 ноя 2023 в 11:073K

*nix*Математика*Машинное обучение*Поисковая оптимизация*Статистика в IT

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_7

?Вопрос_7: Какие есть разновидности Adam optimization и в чем их разница ?

✔️Ответ:

AdamW вводит дополнительное слагаемое в обновление параметров модели для уменьшения влияния больших значений параметров. Это помогает справиться с проблемой увеличения значений параметров во время обучения нейронных сетей, что может приводить к переобучению. Дополнительное слагаемое регуляризует обновление параметров и способствует лучшей обобщающей способности модели;
Nadam (Nesterov-accelerated Adaptive Moment Estimation) является вариацией алгоритма Adam с коррекцией Nesterov Momentum. Она использует модификацию алгоритма Momentum для вычисления градиентов в моменты времени, отличные от текущего;
AMSGrad (Adaptive Moment Estimation with Variance Correction) вводит исправление для оценки второго момента градиентов. Оно предотвращает возможное увеличение оценки второго момента в сравнении с алгоритмом RMSprop;
AdaBelief использует адаптивные скорректированные оценки моментов и вводит дополнительные гиперпараметры для контроля скорости обучения и сглаживания оценок моментов;
RAdam (Rectified Adam) вводит коррекцию для оценки первого момента градиентов, чтобы устранить проблему смещения оценки первого момента на начальных итерациях обучения. RAdam также включает в себя масштабирование скорости обучения на начальных итерациях для стабилизации процесса обучения.
https://t.me/DenoiseLAB

Публикации

Ближайшие события