Комментарии 2
Спасибо за статью, кажется, это уже изобретали раньше под названием SWA :) там как раз идея что сперва учим норм, а в конце "немного шатаем" и усредняем веса полученных шатаний, чтобы не заботиться об одинаковом претрейне и правильном подборе lr
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Model soups: альтернатива ансамблированию при файнтюнинге моделей