Обновить

Комментарии 12

А ничего, что эти рекомендации имеют смысл только для конеретной модели?

Конкретные слои для удаления - только для TinyLlama 1.1B

Но есть два момента:

1. Паттерн переносится - исследования ShortGPT, FinerCut показывают похожее распределение важности для LLaMA-2 7B/13B/70B: ранние и поздние слои критичны, средние redundant.

2. Методология переносится — код в репо позволяет за 5-10 минут прогнать per_layer анализ на любой модели и найти её "безопасные" слои.

Вы и комментарии с помощью нейросети пишете?

Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.

Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками

Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано

Вот и я удивился, как так чётко в процентах можно измерить именно "качество" результата.

Главное открытие: средние слои избыточны

Зависит от входных данных. А что вы генерируете?

Ну в общем-то в статье всё правильно написано: влияние удаления слоёв исследовано только на тривиальном запросе, о каких выводах может идти речь?

Cerebras осенью представили метод REAP для вырезания "лишних" экспертов из MoE уменьшая размер модели до 50%, по их словам почти без потерь в области программирования и tool-calling: https://arxiv.org/abs/2510.13999

В целом это работает, но вопрос качества остаётся открытым, например, из того, что сразу бросается в глаза, у модели пропадает умение отвечать на русском языке.

На huggingface много моделей в REAP виде уже готовы: https://huggingface.co/models?search=reap

Довольно интересные наблюдения. А что, если эти менее важные слои использовать для дообучения модели на новых доменах? Остальные слои заморозить, а в этих чтобы накапливались новые знания. Может быть это смягчит проблему катастрофического забывания?

Звучит интересно. Но модели нужно показывать данные которые были при изначальном обучении, а то получится файтюнинг, модель полностью перестроиться на новый формат данных. И тогда другие слои станут ненужными.

Возможно идея полезна будет если как раз дообучать модель замораживая важные слои. Ведь при первичном обучении её обучают просто продолжать текст понимать структуру языка, а вот вторичное уже перестраивает её на формат вопрос ответ + на запрещенку не отвечать.

На сколько я помню при заморозке слои не жрут ресурсы а значит до обучение/переобучение может быть дешевле.

Почему это полезно, потому что как раз файтюнинг вего привычном понимании не всегда дает нужного результата.

Спасибо! Для меня это ценная информация

Странно, что автор сразу не указал дисклеймер про вполне очевидную вещь, что предлагаемая им процедура удаления слоёв нужна уже после этапа обучения (на котором и тратится наибольшая часть ресурсов), т.е. для дальнейшего применения в виде компактной модели, которую можно крутить на гораздо меньшем объёме памяти и и меньшей вычислительной мощности с малым ущербом к качеству результата. Так что, масштаб экономии, указанный автором в публикации, заметно переоценён.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации