mefdayy 21 апр в 16:50

Квантование моделей: запуск новейших моделей Google на локальном оборудовании

2 мин

1.8K

Блог компании BotHubИскусственный интеллектМашинное обучение*

Обучение с учётом квантования позволяет запускать новейшие модели Google на локальных графических процессорах и даже на мобильных устройствах.

Gemma-3-27b-it-qat-q4_0-gguf звучит как пароль от Wi-Fi, но это самый компактный LLM от Google

Благодаря специализированному подходу к обучению эти новые варианты Gemma 3 теперь могут эффективно работать на потребительском оборудовании — например, на игровых графических процессорах или даже на мобильных устройствах — без существенной потери качества. Для сравнения, оригинальные модели Gemma 3 были созданы для высокопроизводительных систем с использованием NVIDIA H100 и точностью BFloat16, что делало их недоступными для обычных пользователей.

Ключом к этому сдвигу является квантование — процесс, который значительно сокращает использование памяти. Обе модели и их контрольные точки теперь доступны на Hugging Face и Kaggle.

Квантование означает хранение весовых коэффициентов и значений активации с меньшим количеством бит — часто 8, 4 или даже всего 2 — вместо обычных 16 или 32. Это позволяет создавать более компактные модели, которые работают быстрее, поскольку числа с меньшей точностью быстрее перемещаются и обрабатываются.

В Gemma 3 Google применяет обучение с учётом квантования (QAT) — метод, который вводит условия пониженной точности во время обучения. Моделируя с самого начала меньшую разрядность, модель учится адаптироваться к этим ограничениям, сводя к минимуму обычное снижение производительности при работе с пониженной точностью.

Экономия памяти существенная. Например, модель 27B сокращает объём видеопамяти с 54 ГБ до 14,1 ГБ в формате int4. Вариант 12B сокращает объём с 24 ГБ до 6,6 ГБ. Даже более компактные модели выигрывают: версия 4B занимает 2,6 ГБ, а модели 1B требуется всего 0,5 ГБ.

Гистограмма: требования к VRAM для разных размеров моделей Gemma 3, сравнение необработанных (bf16) и квантованных (int4) версий. — Квантование моделей Gemma приводит к значительному снижению требований к VRAM. Например, в то время как необработанной модели 27B требуется 54 ГБ, квантованная версия работает всего на 14,1 ГБ, а производительность, по словам Google, остаётся сопоставимой благодаря обучению с учётом квантования.

Google утверждает, что благодаря QAT модели «устойчивы к квантованию» — условию, которое обычно приводит к некоторой потере качества модели. Однако компания не опубликовала обновлённые результаты тестов, подтверждающие это утверждение.

Модели совместимы с распространёнными механизмами логического вывода для интеграции в существующие рабочие процессы. Встроенная поддержка доступна для Ollama, LM Studio и MLX (для Apple Silicon) и других. Такие инструменты, как llama.cpp и gemma.cpp, также поддерживают квантованные модели Gemma в формате GGUF.

Источник

Теги:

Хабы:

Квантование моделей: запуск новейших моделей Google на локальном оборудовании

Другие новости

Информация