Comments 2
Спасибо за статью, кажется, это уже изобретали раньше под названием SWA :) там как раз идея что сперва учим норм, а в конце "немного шатаем" и усредняем веса полученных шатаний, чтобы не заботиться об одинаковом претрейне и правильном подборе lr
Sign up to leave a comment.
Model soups: альтернатива ансамблированию при файнтюнинге моделей