Как стать автором
Обновить
650.39
Яндекс
Как мы делаем Яндекс

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Время на прочтение3 мин
Количество просмотров5.9K

Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Метод уже доступен на Hugging Face и GitHub. Научную статью про него можно прочитать на arXiv. Ну а более простое описание — под катом этой новости. 

Какую проблему решает новый метод

Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них — популярная DeepSeek R1 — не помещается даже на дорогостоящих серверах. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.

Новый метод позволяет уменьшить размер модели и запустить её на более доступных устройствах. C помощью этого метода можно сжимать даже такие большие модели, как DeepSeek R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Новый способ квантизации даёт больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены.

Чуть подробнее о новом методе

Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Вместо дорогостоящей процедуры подбора квантованных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели или сама модель слишком велика для дообучения.

Метод уже проверили на популярных моделях Llama 3, Llama 4 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе GPTQ (GPT Quantization) и AWQ (Activation-Aware Quantization) в важном для применения диапазоне в 2–4 бит на параметр нейросети. 

Научную статью, в которой описан новый метод, приняли на одну из крупнейших в мире конференций по искусственному интеллекту — NAACL (The North American Chapter of the Association for Computational Linguistics). Она пройдёт с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США. Наряду с Яндексом в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и другие. Статью уже цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и другие.

Вместо заключения

Метод HIGGS обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах. Мы в Яндексе уже применяем новый метод для прототипирования — создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.

HIGGS — далеко не первая работа наших исследователей в области квантизации: команда Yandex Research опубликовала уже более 12 статей на эту тему. Например, ранее мы уже рассказывали о методе AQML c PV-Tuning в отдельной статье. А ещё вы могли видеть демонстрацию этого метода на примере пет-проекта для запуска моделей в браузере. 

Мы стремимся сделать применение моделей более эффективным, менее энергозатратным и доступным для всех разработчиков и исследователей.

Теги:
Хабы:
+23
Комментарии20

Полезные ссылки

Quantization Deep Dive, или Введение в современную квантизацию

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров28K
Всего голосов 66: ↑65 и ↓1+81
Комментарии13

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

Время на прочтение4 мин
Количество просмотров10K
Всего голосов 35: ↑35 и ↓0+44
Комментарии14

Запускаем 8B LLM в браузере: AQLM.rs

Время на прочтение4 мин
Количество просмотров15K
Всего голосов 45: ↑45 и ↓0+59
Комментарии27

Информация

Сайт
www.ya.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия