Новые LLM от Google в 2025 году: генерация идей, голосов, картинок… и песни дельфинов

5 мин

1.2K

Блог компании МТСИскусственный интеллектIT-компанииМашинное обучение*

Привет, Хабр! Меня зовут Саша Пиманов, в МТС я занимаюсь разработкой. Мне нравится следить за глобальными трендами в области, и сегодня хочу обсудить новые LLM от Google. На конференции Google Cloud Next 2025 в Лас-Вегасе компания показала, как усовершенствовала модели Gemini, и представила новые инструменты для создания музыки, видео и изображений. Было много идей для бизнеса, творческого комьюнити и защиты окружающей среды. А еще — необычные проекты вроде анализа вокализаций дельфинов.

Gemini: умнее, быстрее, ближе к людям

Семейство моделей Gemini — сердце ИИ от Google, и в этом году оно получило мощный апгрейд. Начнем с Gemini 2.5 Flash. Модель создана для скорости: она моментально отвечает на простые вопросы и экономит ресурсы. Хотите чат-бота, который не тормозит, или супербыструю поддержку клиентов? Все это может сделать Flash. Модель уже доступна на платформе Vertex AI. Скоро ее можно будет запускать локально через Google Distributed Cloud.

Результаты тестов Gemini 2.5 Pro (источник) — *Результаты тестов Gemini 2.5 Pro (источник*)

Еще есть Gemini 2.5 Pro, заточенная под более комплексные и сложные задачи. Она уверенно справляется с анализом больших данных, созданием веб-приложений и даже научными вопросами. В тестах по математике (AIME 2025) и науке (GPQA) показывает отличные результаты, а в написании кода выдает 63,8% на бенчмарке SWE-Bench Verified.

Отдельно стоит упомянуть Gemini Robotics Models и Gemini Robotics-ER (расширенная версия) от Google DeepMind, представленные в марте 2025 года. Они созданы для роботов: помогают машинам двигаться, взаимодействовать с предметами и анализировать мир через камеры и сенсоры. Пока доступ к этим ИИ-моделям ограничен, но первые результаты уже впечатляют. С Gemini Robotics роботы могут выполнять специфические задачи без предварительного обучения: упаковывать ланч-боксы, готовить салаты, складывать оригами и так далее. Gemini Robotics-ER помогает роботам определять, за какую часть предмета удобнее и безопаснее схватиться (например, за ручку кружки, а не за край). А еще — как именно двигаться, чтобы не задеть другие объекты поблизости и без проблем донести предмет до нужного места.

Еще разработчики Google хотят объединить Gemini с видеомоделью Veo. Гибридный продукт может стать основой для умного помощника. Ожидается, что он будет понимать нас, видеть и слышать окружающий мир, помогать во множестве задач. Например, давать советы по ремонту, «посмотрев» на то, что нужно сделать.

Новые инструменты: от музыки до видео

Google не остановился на Gemini и показал новые LLM для создания контента. Начнем с Lyria — модели генерации музыки, которая преобразует текстовые описания в музыкальные композиции. Хотите саундтрек для видео, рингтон или мелодию для уютного вечера? Опишите, что нужно, например «спокойный джаз», и Lyria создаст трек. Модель доступна в режиме предварительного просмотра на платформе Vertex AI для ограниченного круга пользователей.

Veo 2 — новая LLM генерации видео от Google. Она умеет создавать восьмисекундные клипы в разрешении 720p по текстовым описаниям — например, «закат над горами с летящими птицами». Модель хорошо понимает физику реального мира и движения человека, так что ей по силам реалистичные и плавные видеосцены. Функции редактирования, такие как удаление объектов и улучшение качества, пока ограничены, но Google работает над их расширением.

Imagen 3 отвечает за генерацию изображений. Она создает картинки по текстовым описаниям с высокой точностью — от фотореалистичных портретов до фантастических миров. Может выдавать и шедевры в стиле аниме или импрессионизма. В 2025 году Google улучшил модель: теперь она еще точнее передает свет, тени и детали, умеет восстанавливать недостающие участки изображений и удалять лишние объекты. Imagen 3 доступна через Vertex AI и сервис ImageFX.

Chirp 3 — модель генерации и понимания речи от Google, встроенная в платформу Vertex AI. В 2025 году она получила крупное обновление: функция Instant Custom Voice позволяет создавать персонализированные голосовые модели всего по 10-секундному аудиофрагменту. Хотите озвучить аудиокнигу своим голосом или создать уникального ассистента? Chirp 3 поможет. Правда, доступ к возможности пока ограничен. Модель поддерживает более 30 языков, включая русский. Она стала звучать еще реалистичнее — с улучшенной интонацией и эмоциональной окраской. Потенциал серьезный — от кастомизации приложений до озвучки видео и игр.

Дельфины и природа: ИИ для планеты

Google решил, что ИИ — это не только про бизнес и творчество, но и про заботу о мире. Один из самых впечатляющих проектов — Dolphin Gemma. Он разработан вместе с командой проекта Wild Dolphin Project. Эта LLM анализирует вокализации атлантических пятнистых дельфинов. Представьте: ИИ «слушает» подводные сигналы, расшифровывает их структуру и помогает ученым глубже понять поведение морских млекопитающих, как они общаются между собой. Модель пока доступна только научным партнерам.

Нейросеть анализирует свист дельфина (источник) — *Нейросеть анализирует свист дельфина (источник*)

Фотографии проектов, в которых применялась SpeciesNet (источник) — *Фотографии проектов, в которых применялась SpeciesNet (источник*)

Еще один экологический проект — SpeciesNet. Раньше модель использовалась в рамках платформы Wildlife Insights, с 2019 года. В марте 2025 года ее открыли для широкой публики. Она распознает животных на снимках с камер-ловушек, помогая ученым изучать биоразнообразие, следить за редкими видами и понимать, как меняются экосистемы. SpeciesNet обучена на более чем 65 миллионах изображений и способна распознавать свыше 2 000 меток — от видов и таксонов до небиологических объектов. Код модели открыт и доступен на GitHub, так что любой может использовать ее через Google Cloud или локально.

Машины, офисы и роботы

Разработчики Google рассказали о новых веяниях в своей работе. В январе 2025 года компания анонсировала интеграцию ИИ-помощника в систему MBUX от Mercedes-Benz. Новый Automotive AI Agent понимает голосовые команды, умеет искать нужные места поблизости, учитывать особенности поездки: текущий маршрут, состояние автомобиля, предпочтения водителя и так далее.

Представьте: вы за рулем, говорите «найди уютное место для ужина», и система предлагает подходящие варианты. При этом она знает, какие блюда вам нравится, поэтому ищет заведение со средиземноморской кухней. А еще — старается сэкономить бензин, прокладывая маршрут к найденному ресторану. Такие ассистенты появятся в будущих моделях Mercedes. Точных сроков внедрения пока нет, но направление уже задано.

В Google Workspace появились умные функции. В Google Docs теперь можно не только редактировать тексты одним кликом, но и использовать команду Audio Overviews — документ зачитывается как подкаст. А Help me refine предлагает улучшения текста через комментарии, это особенно удобно при совместной работе. Еще в Google Sheets появилась опция Help me analyze, которая помогает интерпретировать данные и находит ключевые инсайты, словно личный аналитик.

A photo of Samsung’s Ballie robot at CES 2025. — *Помощник оценивает вино, показанное человеком. Полезная функция!* *Источник*

И конечно, роботы. Модель Gemini интегрирована в нового домашнего помощника от Samsung — робота Ballie, релиз которого намечен на лето 2025 года в США и Южной Корее. Он умеет управлять умным домом, сопровождать человека, проецировать фильмы и напоминания, адаптироваться к вашему расписанию. Это полноценный ИИ-компаньон, готовый стать частью повседневной жизни. Первые демо вызвали большой интерес: Ballie — маленький роботизированный колобок, он перемещается, разговаривает и реагирует на обстановку.

Google поддержал новый открытый стандарт — Model Context Protocol от Anthropic. Он позволяет ИИ-моделям, включая Gemini, безопасно и гибко подключаться к внешним источникам данных и инструментам. Это упрощает внедрение ИИ в экосистему компании — от стартапов до крупных организаций.

Итак, краткие итоги. Google в 2025 году продемонстрировали, что ИИ — это еще и про творчество, природу и автомобили. Обновленные Gemini 2.5 Flash, 2.5 Pro, 2.0 Pro Experimental и Robotics Models делают ИИ быстрее, умнее и универсальнее. Lyria, Veo 2, Imagen 3 и Chirp 3 открывают двери для создания музыки, видео и картинок, которые раньше требовали целых студий. А проекты вроде DolphinGemma и SpeciesNet напоминают, что технологии могут служить не только людям, но и планете.

Пишите все, что вы думаете об этих новинках, в комментариях — обсудим вместе.

Теги:

Хабы:

Новые LLM от Google в 2025 году: генерация идей, голосов, картинок… и песни дельфинов

Gemini: умнее, быстрее, ближе к людям

Новые инструменты: от музыки до видео

Дельфины и природа: ИИ для планеты

Машины, офисы и роботы

Полезные ссылки

Обходим подводные камни работы с UDA в коде на Lua для ScyllaDB: дружим Java-драйвер и пустые значения

Пайплайн распознавания номеров транспортных средств: как это устроено

Интеграция виджета обратного звонка МТС Exolve в документацию на MkDocs

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Приручая хаос: как структурировать процессы в эксплуатационных командах. Кейс МТС

Информация