Представлена обновленная Gemini 2.5 Pro — новый топ среди языковых моделей / Habr

Google выпустила Gemini 2.5 Pro Preview 06-05 - обновленную версию своей самой мощной LLM, которая по-совместительству является одной из самых мощных нейросетей на рынке. В компании утверждают о лидерстве в большинстве известных рейтингов, причем в некоторых модель соревновалась с прошлой версией самой себя.

Модель заметно улучшила результаты в AIDER Polyglot (бенчмарк для оценки многоязычных способностей в программировании), HLE (тест на глубокое рассуждение и общие знания) и GPQA (бенчмарк из вопросов по физике уровня магистратуры/аспирантуры, проверяющий научные и математические способности модели).

Модель набирает 1443 очка в WebDev Arena - рейтинге, который показывает успешность нейросетей в веб-разработке.

1470 очков в Text Arena Leaderbord - рейтинге, в котором модели соревнуются в написании художественных текстов.

1278 очков в Vision Arena - бенчмарке, оценивающем мультимодальность:

Также в Google заявляют, что поработали над стилем общения модели - теперь ее ответы должны стать более остроумными и креативными, а также лучше структурированными. Но это утверждение каждый должен проверить для себя сам.

Модель уже появилась в Google AI Studio, а в ближайшее время наверняка станет доступна в приложении Gemini для подписчиков Pro и Ultra. Здесь не обошлось без небольшого негатива: буквально два дня назад Google ввела лимиты на использование 2.5 Pro для пользователей 20-долларовой подписки, ограничив их 50 запросами в сутки. После горы возмущенных постов в X лимиты увеличили до 100 запросов в сутки. Это меньше, ведь раньше 2.5 Pro была практически не лимитирована, но все равно лучше, чем в подписке ChatGPT Plus, где конкурирующая o3 ограничена 100 запросами в неделю.

P.S. Поддержать меня можете подпиской на телеграм-канал "Сбежавшая нейросеть", где я рассказываю о языковых моделях с творческой стороны.