Что такое метод дистилляции знаний? Рассказывают наши коллеги из лаборатории искусственного интеллекта. #нейрословарь
В сфере искусственного интеллекта используются разные методы оптимизации нейросетей. Среди них метод KD (knowledge distillation) часто применяется для переноса «знаний» от более сложной модели (учителя) к более простой (ученику).
Идея дистилляции знаний в том, чтобы научить упрощённую модель не только предсказывать верные классы, но и подражать поведению «учителя». Особенно это востребовано для смартфонов, интернета вещей (IoT) и граничных вычислений (edge-computing), словом — везде, где нужно «добавить нейронку» на слабое железо.
При обучении «ученика» используются как мягкие, так и жёсткие цели (one-hot метки как в обычном обучении). «Мягкие цели» содержат больше информации, чем простые метки классов. Они показывают не только какой класс правильный, но и как учитель воспринимает другие классы, какие из них считает более вероятными.
Для этого на стороне «учителя» увеличивается гиперпараметр «температура». Он смягчает распределение вероятностей классов, выдаваемое функцией softmax, в результате чего вероятности неправильных классов заметнее отличаются друг от друга.
Оба типа целей учитывает комбинированная функция потерь. Она вычисляет потерю дистилляции (разницу между предсказаниями ученика и мягкими целями учителя), а также стандартную кросс-энтропию (степень несоответствия предсказаний ученика жёсткими метками классов).
Есть три разновидности KD:
оффлайн — учитель обучается без взаимодействия с учеником, а затем генерирует ему мягкие цели;
онлайн — учитель и ученик обучаются параллельно, чтобы адаптироваться друг к другу;
cамодистилляция — модель учит сама себя. Одни слои сети играют роль «учителя» для других слоёв.
Модели, обученные с помощью дистилляции, обычно достигают лучшей точности и обобщающей способности, чем такие же модели, обученные только на жёстких метках классов с нуля.
Также дистилляция знаний используется для сжатия. Она позволяет создавать более компактные модели, которые занимают меньше места в памяти и работают быстрее. В частности, так создавались облегчённые версии больших языковых моделей (LLMs), включая BERT () и DeepSeek.