Как стать автором
Обновить

Комментарии 2

Спасибо за статью, кажется, это уже изобретали раньше под названием SWA :) там как раз идея что сперва учим норм, а в конце "немного шатаем" и усредняем веса полученных шатаний, чтобы не заботиться об одинаковом претрейне и правильном подборе lr

Ещё раньше изобрели и назвали методом Нелдера-Мида, и это метод треугольников из оптов 0го порядка. Да и любой знает, что если всегда брать последние 3 точки лучшие по оптимальности и находить центр масс на них, будет ещё ближе к оптимуму

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории