ractangle8 янв в 14:55

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Средний

5 мин

12K

Искусственный интеллектМашинное обучение * Natural Language Processing *

+10

Комментарии 12

Regis 8 янв в 15:38

А ничего, что эти рекомендации имеют смысл только для конеретной модели?

ractangle 8 янв в 17:26

Конкретные слои для удаления - только для TinyLlama 1.1B

Но есть два момента:

1. Паттерн переносится - исследования ShortGPT, FinerCut показывают похожее распределение важности для LLaMA-2 7B/13B/70B: ранние и поздние слои критичны, средние redundant.

2. Методология переносится — код в репо позволяет за 5-10 минут прогнать per_layer анализ на любой модели и найти её "безопасные" слои.

15432 9 янв в 13:19

Вы и комментарии с помощью нейросети пишете?

Mortello 9 янв в 08:39

Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.

Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками

Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано

rapidstream 9 янв в 12:52

Вот и я удивился, как так чётко в процентах можно измерить именно "качество" результата.

ToniDoni 9 янв в 14:37

Главное открытие: средние слои избыточны

Зависит от входных данных. А что вы генерируете?

edo1h 9 янв в 20:23

Ну в общем-то в статье всё правильно написано: влияние удаления слоёв исследовано только на тривиальном запросе, о каких выводах может идти речь?

Shannon 10 янв в 14:42

Cerebras осенью представили метод REAP для вырезания "лишних" экспертов из MoE уменьшая размер модели до 50%, по их словам почти без потерь в области программирования и tool-calling: https://arxiv.org/abs/2510.13999

В целом это работает, но вопрос качества остаётся открытым, например, из того, что сразу бросается в глаза, у модели пропадает умение отвечать на русском языке.

На huggingface много моделей в REAP виде уже готовы: https://huggingface.co/models?search=reap

VNAg 11 янв в 06:47

Довольно интересные наблюдения. А что, если эти менее важные слои использовать для дообучения модели на новых доменах? Остальные слои заморозить, а в этих чтобы накапливались новые знания. Может быть это смягчит проблему катастрофического забывания?

March228 13 янв в 12:28

Звучит интересно. Но модели нужно показывать данные которые были при изначальном обучении, а то получится файтюнинг, модель полностью перестроиться на новый формат данных. И тогда другие слои станут ненужными.

Возможно идея полезна будет если как раз дообучать модель замораживая важные слои. Ведь при первичном обучении её обучают просто продолжать текст понимать структуру языка, а вот вторичное уже перестраивает её на формат вопрос ответ + на запрещенку не отвечать.

На сколько я помню при заморозке слои не жрут ресурсы а значит до обучение/переобучение может быть дешевле.

Почему это полезно, потому что как раз файтюнинг вего привычном понимании не всегда дает нужного результата.

Vital98 12 янв в 05:39

Спасибо! Для меня это ценная информация

AlexTOPMAN 12 янв в 07:59

Странно, что автор сразу не указал дисклеймер про вполне очевидную вещь, что предлагаемая им процедура удаления слоёв нужна уже после этапа обучения (на котором и тратится наибольшая часть ресурсов), т.е. для дальнейшего применения в виде компактной модели, которую можно крутить на гораздо меньшем объёме памяти и и меньшей вычислительной мощности с малым ущербом к качеству результата. Так что, масштаб экономии, указанный автором в публикации, заметно переоценён.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий