Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой модели
Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity.
Результаты:
• Удаление 1 среднего слоя: +10% скорость, -4% качество
• Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество
• Удаление первого слоя: модель полностью ломается
Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении).
Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.



















