Простое руководство по дистилляции BERT / Комментарии / Хабр

roryorangepants 4 мар 2020 в 19:36

В оригинальной статье наилучшие результаты классификации на SST-2 получаются при a=0, когда модель учится только подражать, не учитывая реальные лейблы.

Странно, никогда не получалось обучить хорошо сетку с дистилляцией только на лейблах учителя. Обычно выходило хорошо, когда градиенты от учителя и от GT имеют примерно один порядок (куда ближе к a=0.5, как вышло у вас).
Правда я гонял дистилляцию на CNN и совсем других задачах, но сути это по идее менять не должно.