Обновить
9
32

Пользователь

Отправить сообщение

Конкретные слои для удаления - только для TinyLlama 1.1B

Но есть два момента:

1. Паттерн переносится - исследования ShortGPT, FinerCut показывают похожее распределение важности для LLaMA-2 7B/13B/70B: ранние и поздние слои критичны, средние redundant.

2. Методология переносится — код в репо позволяет за 5-10 минут прогнать per_layer анализ на любой модели и найти её "безопасные" слои.

Информация

В рейтинге
211-й
Зарегистрирован
Активность