Gemini 3.1 Pro: обновление, которое делает модель умнее (наверное) / Хабр

Google выпустил Gemini 3.1 Pro — новую версию своей флагманской модели. Релиз состоялся 19 февраля 2026 года и сразу вызвал обсуждение в профессиональном сообществе: многим было важно понять, насколько заметны изменения по сравнению с предыдущей версией. В этой версии акцент сделали на логике и устойчивости в сложных сценариях. Модель лучше держит длинные цепочки рассуждений, аккуратнее работает с большими объемами данных и реже дает сбои там, где раньше могла запутаться. В практических задачах это выражается просто: ответы стали более последовательными и предсказуемыми. Давайте посмотрим, что там и как.

Технические особенности и результаты бенчмарков

Модель уже доступна в режиме предварительного доступа. Ее можно подключить через Gemini API, использовать в облачной среде Vertex AI или запустить прямо в приложении Gemini и в NotebookLM. Объем контекста остался прежним — до миллиона токенов на вход и 65 000 на выход. Этого достаточно, чтобы работать с крупными материалами целиком: загружать репозитории кода, длинные видео или сотни страниц документов без разбиения на части.

В интерфейсе программирования добавили четыре режима работы — от самого быстрого до максимально глубокого. На максимальном уровне модель дольше думает и аккуратнее проходит промежуточные шаги, зато итог получается точнее. Раньше длинные ответы могли неожиданно обрываться примерно на отметке в 21 тысячу токенов, теперь это исправили — текст доводится до конца. При этом модель расходует меньше токенов и все равно сохраняет полноту ответа.

Мультимодальность расширили максимально. В одном запросе она принимает до 900 изображений, до восьми с половиной часов аудио, видео продолжительностью до часа и PDF объемом до 900 страниц. Это позволяет работать с лекции с записями и слайдами, интервью с текстами и графиками, большими датасетами с визуалами. Генерация SVG теперь гораздо аккуратнее — анимированные графики создаются из простых описаний без сдвигов в пропорциях или пропущенных линий. Конечно, есть исключения, но в большинстве случаев все хорошо. А еще появилась поддержка рендеринга трехмерных структур прямо в чате, что удобно для молекулярных моделей, архитектурных решений или прототипов интерфейсов.

По тестам прирост заметный. В ARC-AGI-2, где проверяют способность решать новые визуально-логические задачи без опоры на заранее выученные шаблоны, модель набрала 77,1% правильных ответов против 31,1% у предыдущей версии. Разница действительно серьезная.

В GPQA Diamond, тесте на знания уровня докторантуры по физике, биологии и химии, результат составил 94,3%. В Humanity’s Last Exam, который объединяет сложные вопросы из разных областей, модель получила 44,4% без дополнительных инструментов и 51,4% при подключении поиска и кода.

В APEX-Agents, где оценивается умение выстраивать последовательность действий в многошаговых сценариях, показатель вырос до 33,5%. В Terminal-Bench 2.0, проверяющем работу в среде командной строки, результат достиг 68,5%. В SWE-Bench Verified, где модель должна исправлять реальные ошибки в открытых проектах, — 80,6%. В LiveCodeBench Pro, ориентированном на соревновательное программирование, она получила 2 887 баллов. Скорость генерации около 106 токенов в секунду для такого класса моделей выглядит вполне уверенно.

ML Impact — про ML и AI без хайпа

Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.

Подробнее →

Сравнение с конкурентами и место на рынке

В пользовательском рейтинге Arena сейчас немного впереди Claude Opus 4.6 — у него около 1 504 баллов Elo против примерно 1 500 у Gemini 3.1 Pro. Тут стоит пояснить, что рейтинг формируется на основе голосов пользователей: люди сравнивают ответы моделей и выбирают тот, который показался им более удачным. Поэтому здесь часто выигрывает более «живой» и стилистически приятный текст, и в креативных задачах Claude многим кажется чуть естественнее.

Стоимость у Gemini 3.1 Pro — два доллара за миллион входных токенов и двенадцать за миллион выходных. У Claude тарифы выше и могут доходить до 5–25 долларов в зависимости от версии. Для проектов, где запросов много и модель используется постоянно, разница становится заметной. Именно поэтому многие выбирают Gemini для рабочих задач: при большом объеме работы итоговые расходы получаются ниже.

Отзывы первых дней использования дополняют официальную оценку и рейтинги. На Reddit многие отмечают, что Gemini 3.1 Pro стала заметно удобнее для реального кодинга и веб-дизайна, где раньше конкуренты выигрывали за счет скорости и стиля. Кто-то хвалит за снижение количества выдуманных деталей и стабильность в длинных сессиях, другие жалуются на регресс в эмоциональном ��нтеллекте и креативном письме. Но положительных отзывов больше.

Что касается специфики задач, то расклад такой. Если нужна максимальная точность в абстрактном мышлении или научном анализе, то Gemini 3.1 Pro сейчас выглядит одним из лучших вариантов. Когда важнее стиль, интонация и ощущение естественного диалога, Claude Opus 4.6 многим по-прежнему нравится больше. GPT-5.2 тоже остается в игре, но во многих строгих тестах уступает обоим лидерам. Такой расклад показывает, что эпоха универсальной лучшей модели постепенно уходит в прошлое — теперь все зависит от конкретных нужд и приоритетов.

В техническом описании модели разработчики отдельно отмечают улучшения в многоязычных задачах и работе с длинным контекстом: она устойчивее держит логику, когда входных данных много и рассуждение растягивается на десятки шагов. Те, кто уже тестировал ее в Antigravity, пишут, что в проектах с трехмерной графикой и сложными сценариями взаимодействия стало меньше сбоев и ручных доработок. Идеальной модель никто не называет — встречаются задержки и отдельные шероховатости, — но общее впечатление у ранних пользователей скорее положительное: обновление воспринимается как заметное усиление рабочих возможностей.

В общем, получилось солидное рабочее обновление, которое закрывает многие прежние вопросы. Она особенно уверенно чувствует себя там, где нужно последовательно анализировать много данных — код, документы, исследования. Не приходится так часто возвращать ее к исходной задаче или уточнять одно и то же по несколько раз. В итоге 3.1 Pro воспринимается как более точная и предсказуемая версия предыдущей модели.

Ждем, что будет с обновленной Flash-версией в ближайшее время — Google явно вошел в ритм регулярных улучшений. А вы уже пробовали новую Gemini 3.1 Pro? Как она себя показывает по сравнению с Claude и GPT? Делитесь впечатлениями в комментариях.

Gemini 3.1 Pro: обновление, которое делает модель умнее (наверное)

Технические особенности и результаты бенчмарков

Сравнение с конкурентами и место на рынке

Публикации

Информация