Как стать автором
Обновить

Google I/O 2024: «новая эра» Gemini

Время на прочтение3 мин
Количество просмотров2.4K

В амфитеатре Шортлайн в Маунтин-Вью состоялась конференция Google I/O 2024. Основное внимание направлено на модель Gemini и новые ИИ-функции практически во всех продуктах. Компания показала ИИ-помощника Project Astra, генератор видео Veo и новые возможности Gemini на Android.

Мероприятие открылось с доклада главы компании Сундара Пичаи, который рассказал о Gemini 1.5 Pro:

  • 1 млн+ регистраций Gemini Advanced «всего за 3 месяца»;

  • все пользовательские продукты Google используют Gemini;

  • более 1,5 млн разработчиков используют Gemini;

  • понимает и генерирует все типы информации;

  • с сегодняшнего дня Gemini 1.5 Pro встроена в Gmail, Гугл Фото и Google Meet. В Гугл Фото модель поможет найти фото по голосовым командам: с ней можно будет общаться, как с человеком (например, попросить все фото на определённую тему, и приложение соберёт коллаж). В Google Meet нейросеть покажет лучшие моменты созвонов, а в почте появится умный поиск по письмам.

Место на сцене занял Демис Хассабис.

  • анонсирована Gemini 1.5 Flash: более лёгкая модель, чем 1.5 Pro. Предназначена для случаев, когда важны низкая задержка и стоимость;

  • показали прототип Project Astra — обновлённого и улучшенного ИИ-помощника, который способен взаимодействовать с окружающим миром, распознавая объекты и понимая контекстные детали. Он также получил намного более естественную речь, чем у Google Assistant. Astra работает на прототипе умных очков. В короткой демонстрации Project Astra нашёл колонки по запросу «найди то, что воспроизводит звук», и описал, что делает код на экране компьютера.

  • Даг Эк представил генератор изображений Imagen 3. Новая версия понимает промты, написанные «по-человечески», учитывает и генерирует мелкие детали. Даг обещает, что это лучшая модель для рендеринга текста;

  • генератор музыки Music AI Sandbox;

  • Хассабис представил генератор видео Veo. Он способен создавать видео HQ 1080p и доступен для использования в VideoFX. Записаться в список ожидания можно здесь.

Сундар Пичаи представил Trillium — TPU шестого поколения от Google с улучшенной в 4,7 раза производительностью. Он будет доступен в Google Cloud в конце 2024 года.

Gemini в Google Поиске: 

  • может ответить на сложные вопросы со множеством деталей или несколькими вопросами в одном. Например, на запрос «найти лучшие занятия по пилатесу в определённом месте» нейросеть проанализирует студии, их рейтинг, место и время работы и предоставит оптимальный результат;

  • помощь в поиске: например, при поиске ресторанов, где можно отпраздновать годовщину, ИИ предоставит варианты для различных форматов мероприятия;

  • возможность задавать вопросы с помощью видео через Google Lens. Нейросеть услышит вопрос, распознает, что происходит на видео, и ответит на вопрос в рамках этого контекста.

Gemini в Workspace:

  • Google Meet теперь поддерживает 68 языков;

  • суммаризация писем в Gmail, анализ информации из нескольких писем (например, ИИ проанализирует несколько писем от разных подрядчиков по ремонту крыши и сообщит цену каждого из них). ИИ также предложит варианты для ответа на письмо;

  • автоматическая работа в разных приложениях: Gemini анализирует и предоставляет информацию на запрос одновременно из Почты, Календаря, Таблиц, Диска и т. д. 

  • AI Teammate: ИИ будет выступать в роли виртуального коллеги в рабочих чатах. Ему можно будет дать задание или задать вопрос, он проанализирует всю информацию, к которой имеет доступ, и отправит ответ в чат.

Gemini на Android

  • Gemini Nano: мультимодальная модель на устройстве, способная воспринимать аудио, видео и текст и работает даже без соединения с Интернетом;

  • Gemini Nano на Android лучше понимает контекст запроса. Например, если задать вопрос, просматривая видео на YouTube, нейросеть ответит на вопрос, проанализировав видео;

  • генерация картинок прямо в мессенджере (открывается в окне поверх диалога);

  • безопасность: Gemini будет отсекать звонки мошенников;

  • появится в смартфонах Pixel до конца года.

Gemini для разработчиков:

  • Gemini 1.5 Pro поддерживает извлечение видеокадров и параллельный вызов функций, а в июне появится возможность кэширования контекста;

  • Gemini 1.5 Flash: меньшая модель Gemini, оптимизированная для более узких задач или задач, где скорость ответа имеет наибольшее значение.

Обе модели доступны в более чем 200 странах в предварительной версии, общедоступная появится в июне. Обе модели мультимодальны, с контекстным окном на 1 млн токенов. У пользователей также есть возможность получить доступ к версии 1.5 Pro с окном контекста на 2 млн токенов, через список ожидания в Google AI Studio или Vertex AI.

  • представлены адаптированные варианты модели Gemma, такие как CodeGemma (для помощи при написании кода), Recurrent Gemma (оптимизирована для оптимального использования памяти) и PaliGemma (для «мультимодальных задач визуального языка»);

  • анонс Gemma 2 с 27 млрд параметров (для сравнения, у версий, доступных сегодня, 2 и 7 млрд параметров). Компания утверждает, что эта версия Gemma 2 «превосходит модели вдвое больше неё по размеру и работает на одном TPUv5e».

Слово AI на конференции было сказано 120 раз :)

Теги:
Хабы:
+9
Комментарии2

Другие новости

Истории

Ближайшие события

Конференция HR API 2024
Дата14 – 15 июня
Время10:00 – 18:00
Место
Санкт-ПетербургОнлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область