Действительно, задача "облегчения" моделей актуальна для их практического использования на мобильных устройствах. Не только время исполнения, но и непосредственно объем занимаемый на устройстве является важным фактором. При этом обязательно возникает проблема поиска компромисса между уменьшением размера модели/время исполнения, сохранения качества работы сети. В этом смысле модели используемые на устройстве стараются максимально оптимизировать применяя такие методы как тренировка с учётом целевой квантизации (quantization aware training), и всевозможные методы сжатия сетей: факторизация с использованием SVD, методы "прореживания" (pruning) и дистилляции моделей.
Отвечая непосредственно на ваш вопрос, техника дистиляции не является специфичной именно для LLM (где она возможно получила большее распространение в виду того, что модели по определению "большие"), и находит свое примение в случае задач оптимизации моделей компьютерного зрения на основе глубоких свёрточных сетей, и тем более использующих трансформерные архитектуры arXiv:2309.14162, arXiv:2311.01283).
Действительно, задача "облегчения" моделей актуальна для их практического использования на мобильных устройствах. Не только время исполнения, но и непосредственно объем занимаемый на устройстве является важным фактором. При этом обязательно возникает проблема поиска компромисса между уменьшением размера модели/время исполнения, сохранения качества работы сети. В этом смысле модели используемые на устройстве стараются максимально оптимизировать применяя такие методы как тренировка с учётом целевой квантизации (quantization aware training), и всевозможные методы сжатия сетей: факторизация с использованием SVD, методы "прореживания" (pruning) и дистилляции моделей.
Отвечая непосредственно на ваш вопрос, техника дистиляции не является специфичной именно для LLM (где она возможно получила большее распространение в виду того, что модели по определению "большие"), и находит свое примение в случае задач оптимизации моделей компьютерного зрения на основе глубоких свёрточных сетей, и тем более использующих трансформерные архитектуры arXiv:2309.14162, arXiv:2311.01283).