Google DeepMind официально представила Gemma 4 – новое семейство открытых моделей, которые можно запускать на собственном оборудовании под лицензией Apache 2.0.
Релиз состоялся 2 апреля 2026 года, и в него вошли сразу четыре размера: две мощные модели для локального инференса (31B Dense и 26B MoE) и две модели для периферийных устройств (E4B и E2B). Все они, по заявлению компании, “сдвигают планку intelligence-per-parameter” – то есть выдают результат, сопоставимый с гораздо более крупными конкурентами, потребляя при этом меньше ресурсов.

Семейство построено на той же исследовательской и технологической базе, что и Gemini 3, но, в отличие от проприетарного флагмана, Gemma 4 создана для работы офлайн – начиная от Android-смартфонов и заканчивая рабочими станциями с одной видеокартой. Google отчиталась, что предыдущие поколения Gemma были скачаны более 400 миллионов раз, а сообщество создало свыше 100 тысяч вариантов моделей (так называемый Gemmaverse).
Что важно знать
31B Dense – максимальное качество. На данный момент эта модель занимает 3-е место в мире среди открытых моделей по версии Arena AI text leaderboard. Обходит конкурентов, которые в 20 раз больше неё по числу параметров. Немного уступает только закрытым гигантам.
26B MoE (Mixture of Experts) – скорость. При инференсе активируется только 3,8 млрд параметров, что даёт очень высокие токены в секунду. В том же рейтинге Arena AI модель находится на 6-й позиции.
E4B и E2B (Effective 4B / 2B) – для мобильных и IoT. Полностью мультимодальные, работают с текстом, видео, изображениями и аудио (последнее – только у edge-моделей). Поддерживают контекст до 128K токенов и оптимизированы для энергоэффективности – активируют лишь эффективные 2 или 4млрд параметров, чтобы не сажать батарейку.

Все версии (включая edge) поддерживают нативные вызовы функций, структурированный вывод JSON, системные инструкции и контекст до 256K токенов для больших моделей.
Google учла пожелания сообщества. Gemma 4 выходит под коммерчески разрешительной лицензией Apache 2.0. Это означает, что вы можете использовать модели, дообучать их, встраивать в свои продукты и даже перепродавать без каких-либо отчислений. Как отметил Клеман Деланг, сооснователь и CEO Hugging Face: “Релиз Gemma 4 под Apache 2.0 – огромная веха. Мы невероятно рады поддерживать семейство Gemma 4 на Hugging Face с первого дня”.
Скачать образы можно с Hugging Face, Kaggle или Ollama.
Немного цифр и технических деталей
Точность – неквантованные веса bfloat16 для 31B и 26B помещаются на одной NVIDIA H100 (80 ГБ). Для локальных игровых GPU есть квантизованные версии.
Контекст – 256K токенов для 31B/26B, 128K для E4B/E2B.
Языки – модели нативно обучены на 140+ языках, включая русский.
Мультимодальность – все модели понимают видео и изображения (переменное разрешение, OCR, диаграммы). Edge-модели ещё и аудиовход для распознавания речи.
Google подчёркивает, что Gemma 4 проходит те же протоколы безопасности, что и их проприетарные модели.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
