Обновить

Комментарии 9

А ничего, что эти рекомендации имеют смысл только для конеретной модели?

Конкретные слои для удаления - только для TinyLlama 1.1B

Но есть два момента:

1. Паттерн переносится - исследования ShortGPT, FinerCut показывают похожее распределение важности для LLaMA-2 7B/13B/70B: ранние и поздние слои критичны, средние redundant.

2. Методология переносится — код в репо позволяет за 5-10 минут прогнать per_layer анализ на любой модели и найти её "безопасные" слои.

Вы и комментарии с помощью нейросети пишете?

Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.

Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками

Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано

Вот и я удивился, как так чётко в процентах можно измерить именно "качество" результата.

Главное открытие: средние слои избыточны

Зависит от входных данных. А что вы генерируете?

Ну в общем-то в статье всё правильно написано: влияние удаления слоёв исследовано только на тривиальном запросе, о каких выводах может идти речь?

Cerebras осенью представили метод REAP для вырезания "лишних" экспертов из MoE уменьшая размер модели до 50%, по их словам почти без потерь в области программирования и tool-calling: https://arxiv.org/abs/2510.13999

В целом это работает, но вопрос качества остаётся открытым, например, из того, что сразу бросается в глаза, у модели пропадает умение отвечать на русском языке.

На huggingface много моделей в REAP виде уже готовы: https://huggingface.co/models?search=reap

Довольно интересные наблюдения. А что, если эти менее важные слои использовать для дообучения модели на новых доменах? Остальные слои заморозить, а в этих чтобы накапливались новые знания. Может быть это смягчит проблему катастрофического забывания?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации