Обучение с учётом квантования позволяет запускать новейшие модели Google на локальных графических процессорах и даже на мобильных устройствах.

Благодаря специализированному подходу к обучению эти новые варианты Gemma 3 теперь могут эффективно работать на потребительском оборудовании — например, на игровых графических процессорах или даже на мобильных устройствах — без существенной потери качества. Для сравнения, оригинальные модели Gemma 3 были созданы для высокопроизводительных систем с использованием NVIDIA H100 и точностью BFloat16, что делало их недоступными для обычных пользователей.
Ключом к этому сдвигу является квантование — процесс, который значительно сокращает использование памяти. Обе модели и их контрольные точки теперь доступны на Hugging Face и Kaggle.
Квантование означает хранение весовых коэффициентов и значений активации с меньшим количеством бит — часто 8, 4 или даже всего 2 — вместо обычных 16 или 32. Это позволяет создавать более компактные модели, которые работают быстрее, поскольку числа с меньшей точностью быстрее перемещаются и обрабатываются.
В Gemma 3 Google применяет обучение с учётом квантования (QAT) — метод, который вводит условия пониженной точности во время обучения. Моделируя с самого начала меньшую разрядность, модель учится адаптироваться к этим ограничениям, сводя к минимуму обычное снижение производительности при работе с пониженной точностью.
Экономия памяти существенная. Например, модель 27B сокращает объём видеопамяти с 54 ГБ до 14,1 ГБ в формате int4. Вариант 12B сокращает объём с 24 ГБ до 6,6 ГБ. Даже более компактные модели выигрывают: версия 4B занимает 2,6 ГБ, а модели 1B требуется всего 0,5 ГБ.

Google утверждает, что благодаря QAT модели «устойчивы к квантованию» — условию, которое обычно приводит к некоторой потере качества модели. Однако компания не опубликовала обновлённые результаты тестов, подтверждающие это утверждение.
Модели совместимы с распространёнными механизмами логического вывода для интеграции в существующие рабочие процессы. Встроенная поддержка доступна для Ollama, LM Studio и MLX (для Apple Silicon) и других. Такие инструменты, как llama.cpp и gemma.cpp, также поддерживают квантованные модели Gemma в формате GGUF.