Комментарии 3
Отличный туториал, спасибо, а вы в итоге использовали этот подход в продакшене?
В оригинальной статье наилучшие результаты классификации на SST-2 получаются при a=0, когда модель учится только подражать, не учитывая реальные лейблы.
Странно, никогда не получалось обучить хорошо сетку с дистилляцией только на лейблах учителя. Обычно выходило хорошо, когда градиенты от учителя и от GT имеют примерно один порядок (куда ближе к a=0.5, как вышло у вас).
Правда я гонял дистилляцию на CNN и совсем других задачах, но сути это по идее менять не должно.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Простое руководство по дистилляции BERT