Comments 2
Смысл статьи в том, чтобы дать понимание того, что есть эвристики для SGD, к примеру, и путем комбинирования эвристик как раз получаются различные навороченные оптимизаторы по типу Adam. Насчет того — есть ли такой пул задач, в которых "менее навороченные" оптимизаторы показывают себя лучше — ответить не берусь, но в статье я этого сказать ни в коем случае не хотел.
Спасибо за комментарий, постараюсь впредь доносить мораль более точно!
Sign up to leave a comment.
Идея инерции(SGDm), идея масштабирования (Adagrad) и регуляризация в машинном обучении на примере задачи классификации