mefdayy 23 часа назад

Google обновляет Gemini 2.5 Pro, добавляя новый режим Deep Think для расширенных логических возможностей

3 мин

1.2K

Блог компании BotHubИскусственный интеллектМашинное обучение*

Google тестирует новый экспериментальный режим для Gemini 2.5 Pro, который расширяет возможности анализа и обеспечивает вывод звука. Новый режим под названием «Deep Think» призван помочь модели оценить несколько гипотез, прежде чем отвечать на запрос. По словам Google, он основан на новых методах исследования и в настоящее время тестируется на ограниченной группе пользователей Gemini API.

Google сообщает, что Gemini 2.5 Pro с Deep Think превосходит модель o3 от OpenAI в нескольких задачах, включая математический тест USAMO 2025, тест на программирование LiveCodeBench и MMMU — тест на мультимодальное мышление.

Новый режим «Deep Think» в Gemini 2.5 Pro разработан для того, чтобы превзойти модель OpenAI o3 в задачах по математике, программированию и мультимодальным задачам.

Google также обновил свою модель 2.5 Flash, которая оптимизирована для повышения скорости и эффективности. Последняя версия лучше справляется с логическими, мультимодальными задачами и генерацией кода, при этом используя на 20–30% меньше токенов для получения того же результата.

Обновленная модель Gemini 2.5 Flash обеспечивает более высокую производительность при меньшем использовании токенов, сообщает Google.

Gemini 2.5 Flash теперь доступен в Google AI Studio, Vertex AI и приложении Gemini. Ожидается, что он станет доступен для производственного использования в начале июня.

Новые звуковые функции и компьютерное управление

И Gemini 2.5 Pro, и Flash теперь поддерживают преобразование текста в речь с использованием нескольких профилей динамиков. Голосовой вывод может воспроизводить такие тонкие эффекты, как шёпот и эмоциональный тон, и поддерживает более 24 языков. Разработчики могут управлять акцентом, тоном и стилем речи с помощью Live API.

Две новые функции — «Affective Dialogue» и «Proactive Audio» — призваны сделать голосовое взаимодействие более естественным. Affective Dialogue позволяет модели распознавать эмоции в голосе пользователя и реагировать соответствующим образом — нейтрально, сочувственно или весело. Proactive Audio помогает отфильтровывать фоновые разговоры, поэтому ИИ реагирует только на прямые обращения. Цель состоит в том, чтобы сократить количество случайных взаимодействий и сделать голосовое управление более надёжным.

Google также внедряет функции из Project Mariner в Gemini API и Vertex AI, что позволяет модели управлять компьютерными приложениями, такими как веб-браузер.

Для разработчиков в Gemini теперь доступны «сводки мыслей» — структурированное представление о внутренних рассуждениях модели и выполняемых ею действиях. Для управления производительностью разработчики могут настроить «бюджеты мышления», чтобы ограничить или отключить количество токенов, используемых моделью для рассуждений.

API Gemini также теперь поддерживает Anthropic Model Context Protocol (MCP), который может упростить интеграцию с инструментами с открытым исходным кодом. Google изучает размещенные MCP-серверы для поддержки разработки приложений на основе агентов.

Модель Gemma с открытым исходным кодом от Google становится мультимодальной

Компания Google добавила в свою линейку ИИ новую модель Gemma 3n — легковесную модель с открытым исходным кодом, созданную специально для мобильных устройств, таких как смартфоны, планшеты и ноутбуки. Модель основана на новой архитектуре, разработанной в сотрудничестве с партнерами по производству оборудования, включая Qualcomm, MediaTek и Samsung.

Gemma 3n предназначена для обеспечения мощных мультимодальных возможностей при низком потреблении ресурсов. Версии с параметрами 5B и 8B требуют всего от 2 до 3 ГБ оперативной памяти, что делает их подходящими для использования на устройствах.

Модель поддерживает обработку текста, аудио и изображений и может выполнять такие задачи, как транскрипция, перевод и обработка смешанных входных данных в различных модальностях. Ключевой особенностью является функция «Mix-n-Match», которая позволяет разработчикам извлекать из основной архитектуры более мелкие подмодели в зависимости от сценария использования.

Google также улучшил многоязычные возможности Gemma 3n, особенно для таких языков, как немецкий, японский, корейский, испанский и французский. Предварительная версия модели теперь доступна через Google AI Studio и AI Edge Toolkit для локальной разработки.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Хабы:

Google обновляет Gemini 2.5 Pro, добавляя новый режим Deep Think для расширенных логических возможностей

Новые звуковые функции и компьютерное управление

Модель Gemma с открытым исходным кодом от Google становится мультимодальной

Другие новости

Информация