Комментарии 9
А ничего, что эти рекомендации имеют смысл только для конеретной модели?
Конкретные слои для удаления - только для TinyLlama 1.1B
Но есть два момента:
1. Паттерн переносится - исследования ShortGPT, FinerCut показывают похожее распределение важности для LLaMA-2 7B/13B/70B: ранние и поздние слои критичны, средние redundant.
2. Методология переносится — код в репо позволяет за 5-10 минут прогнать per_layer анализ на любой модели и найти её "безопасные" слои.
Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.
Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками
Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано
Главное открытие: средние слои избыточны
Зависит от входных данных. А что вы генерируете?
Ну в общем-то в статье всё правильно написано: влияние удаления слоёв исследовано только на тривиальном запросе, о каких выводах может идти речь?
Cerebras осенью представили метод REAP для вырезания "лишних" экспертов из MoE уменьшая размер модели до 50%, по их словам почти без потерь в области программирования и tool-calling: https://arxiv.org/abs/2510.13999
В целом это работает, но вопрос качества остаётся открытым, например, из того, что сразу бросается в глаза, у модели пропадает умение отвечать на русском языке.
На huggingface много моделей в REAP виде уже готовы: https://huggingface.co/models?search=reap
Довольно интересные наблюдения. А что, если эти менее важные слои использовать для дообучения модели на новых доменах? Остальные слои заморозить, а в этих чтобы накапливались новые знания. Может быть это смягчит проблему катастрофического забывания?

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее