Обновить
9
32

Пользователь

Отправить сообщение

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

Эксперимент по хирургическому удалению слоёв из языковой модели

Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity.

Результаты:
• Удаление 1 среднего слоя: +10% скорость, -4% качество
• Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество
• Удаление первого слоя: модель полностью ломается

Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении).

Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

Читать далее

Rust, mmap и 10 миллионов пикселей: делаем производительный Log Viewer для VS Code

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.8K

Наверняка у каждого бэкендера или девопса была такая ситуация:
Нужно срочно посмотреть, что случилось на проде. Вы скачиваете server.log, по привычке кликаете на него в VS Code... и всё.
Редактор зависает, кулеры ноутбука взлетают, интерфейс не отвечает. Файл весит всего-то 2-3 ГБ, но для редактора на базе Electron/DOM это приговор.

Обычно в этот момент мы убиваем процесс VS Code и идём в терминал писать less или tail -f. Это работает, но лишает нас комфорта: нормального поиска, копипаста мышкой, подсветки синтаксиса.

Я перепробовал кучу расширений, но все они либо пытались загрузить файл в память (и падали), либо работали слишком медленно. Поэтому я решил написать своё решение — с Rust на бэкенде, memory-mapping и виртуализацией всего, что только можно.

Под катом расскажу, как скрестить VS Code с нативным бинарником, обойти лимиты браузера на высоту скролла и сделать grep по гигабайтам текста мгновенным.

Читать далее

Информация

В рейтинге
211-й
Зарегистрирован
Активность