AnnieBronson 14 мая в 20:18

Google I/O 2024: «новая эра» Gemini

3 мин

2.4K

КонференцииИскусственный интеллектIT-компании

В амфитеатре Шортлайн в Маунтин-Вью состоялась конференция Google I/O 2024. Основное внимание направлено на модель Gemini и новые ИИ-функции практически во всех продуктах. Компания показала ИИ-помощника Project Astra, генератор видео Veo и новые возможности Gemini на Android.

Мероприятие открылось с доклада главы компании Сундара Пичаи, который рассказал о Gemini 1.5 Pro:

1 млн+ регистраций Gemini Advanced «всего за 3 месяца»;
все пользовательские продукты Google используют Gemini;
более 1,5 млн разработчиков используют Gemini;
понимает и генерирует все типы информации;
с сегодняшнего дня Gemini 1.5 Pro встроена в Gmail, Гугл Фото и Google Meet. В Гугл Фото модель поможет найти фото по голосовым командам: с ней можно будет общаться, как с человеком (например, попросить все фото на определённую тему, и приложение соберёт коллаж). В Google Meet нейросеть покажет лучшие моменты созвонов, а в почте появится умный поиск по письмам.

Место на сцене занял Демис Хассабис.

анонсирована Gemini 1.5 Flash: более лёгкая модель, чем 1.5 Pro. Предназначена для случаев, когда важны низкая задержка и стоимость;
показали прототип Project Astra — обновлённого и улучшенного ИИ-помощника, который способен взаимодействовать с окружающим миром, распознавая объекты и понимая контекстные детали. Он также получил намного более естественную речь, чем у Google Assistant. Astra работает на прототипе умных очков. В короткой демонстрации Project Astra нашёл колонки по запросу «найди то, что воспроизводит звук», и описал, что делает код на экране компьютера.

Даг Эк представил генератор изображений Imagen 3. Новая версия понимает промты, написанные «по-человечески», учитывает и генерирует мелкие детали. Даг обещает, что это лучшая модель для рендеринга текста;
генератор музыки Music AI Sandbox;
Хассабис представил генератор видео Veo. Он способен создавать видео HQ 1080p и доступен для использования в VideoFX. Записаться в список ожидания можно здесь.

Сундар Пичаи представил Trillium — TPU шестого поколения от Google с улучшенной в 4,7 раза производительностью. Он будет доступен в Google Cloud в конце 2024 года.

Gemini в Google Поиске:

может ответить на сложные вопросы со множеством деталей или несколькими вопросами в одном. Например, на запрос «найти лучшие занятия по пилатесу в определённом месте» нейросеть проанализирует студии, их рейтинг, место и время работы и предоставит оптимальный результат;
помощь в поиске: например, при поиске ресторанов, где можно отпраздновать годовщину, ИИ предоставит варианты для различных форматов мероприятия;
возможность задавать вопросы с помощью видео через Google Lens. Нейросеть услышит вопрос, распознает, что происходит на видео, и ответит на вопрос в рамках этого контекста.

Gemini в Workspace:

Google Meet теперь поддерживает 68 языков;
суммаризация писем в Gmail, анализ информации из нескольких писем (например, ИИ проанализирует несколько писем от разных подрядчиков по ремонту крыши и сообщит цену каждого из них). ИИ также предложит варианты для ответа на письмо;
автоматическая работа в разных приложениях: Gemini анализирует и предоставляет информацию на запрос одновременно из Почты, Календаря, Таблиц, Диска и т. д.
AI Teammate: ИИ будет выступать в роли виртуального коллеги в рабочих чатах. Ему можно будет дать задание или задать вопрос, он проанализирует всю информацию, к которой имеет доступ, и отправит ответ в чат.

Gemini на Android

Gemini Nano: мультимодальная модель на устройстве, способная воспринимать аудио, видео и текст и работает даже без соединения с Интернетом;
Gemini Nano на Android лучше понимает контекст запроса. Например, если задать вопрос, просматривая видео на YouTube, нейросеть ответит на вопрос, проанализировав видео;
генерация картинок прямо в мессенджере (открывается в окне поверх диалога);
безопасность: Gemini будет отсекать звонки мошенников;
появится в смартфонах Pixel до конца года.

Gemini для разработчиков:

Gemini 1.5 Pro поддерживает извлечение видеокадров и параллельный вызов функций, а в июне появится возможность кэширования контекста;
Gemini 1.5 Flash: меньшая модель Gemini, оптимизированная для более узких задач или задач, где скорость ответа имеет наибольшее значение.

Обе модели доступны в более чем 200 странах в предварительной версии, общедоступная появится в июне. Обе модели мультимодальны, с контекстным окном на 1 млн токенов. У пользователей также есть возможность получить доступ к версии 1.5 Pro с окном контекста на 2 млн токенов, через список ожидания в Google AI Studio или Vertex AI.

представлены адаптированные варианты модели Gemma, такие как CodeGemma (для помощи при написании кода), Recurrent Gemma (оптимизирована для оптимального использования памяти) и PaliGemma (для «мультимодальных задач визуального языка»);
анонс Gemma 2 с 27 млрд параметров (для сравнения, у версий, доступных сегодня, 2 и 7 млрд параметров). Компания утверждает, что эта версия Gemma 2 «превосходит модели вдвое больше неё по размеру и работает на одном TPUv5e».

Слово AI на конференции было сказано 120 раз :)

Теги:

Хабы:

Google I/O 2024: «новая эра» Gemini

Другие новости

Истории

Ближайшие события