Как стать автором
Поиск
Написать публикацию
Обновить

Gemini 1.5 Pro научили «слушать» аудиофайлы

Время на прочтение2 мин
Количество просмотров1.2K

Во время мероприятия Google Next компания объявила, что её модель Gemini 1.5 Pro теперь может «прослушивать» загруженные аудиофайлы и генерировать данные из контекста звонков, а также звука в видео.

Компания сделает Gemini 1.5 Pro доступной через платформу для создания приложений искусственного интеллекта Vertex AI. 

Google обновила и модель генерации изображений Imagen 2. Теперь она способна добавлять или удалять элементы из изображений. Кроме того, функция цифровых водяных знаков SynthID стала доступной для всех созданных с помощью ИИ изображений.

Google рассматривает способ согласовать ответы ИИ с поиском компании, чтобы Gemini могла оперировать актуальной информацией. 

Наконец, стало известно, что Best Buy, IHG Hotels и другие компании создают собственных чат-ботов на базе Gemini для обслуживания клиентов. Best Buy, например, использует технологию для создания виртуальных помощников, которые отвечают на вопросы о проблемах с продуктами и переносят сроки доставки заказов. IHG Hotels & Resorts работает над приложением, которое поможет спланировать отпуск, а Mercedes Benz использует Gemini для улучшения функций умного продавца-консультанта.

Google запустила Vertex AI Agency Builder, который поможет разработчикам легко создавать и развёртывать чат-боты корпоративного уровня. Инструмент работает подобно GPTs от OpenAI и Copilot Studio от Microsoft. Builder предоставит разработчикам no-code консоль, которая понимает команды на естественном языке и создаёт агенты искусственного интеллекта на основе Gemini за минуты. 

Ранее сообщалось, что Google предоставила доступ к модели Gemini 1.5 Pro и начала развёртывать поддержку API для неё через интерфейс AI Studio.

Google представила семейство моделей Gemini 1.5 в конце февраля. Gemini 1.5 Pro демонстрирует производительность, сравнимую с Gemini 1.0 Ultra, флагманской моделью предыдущего поколения. Она может обрабатывать до одного часа видео, 11 часов аудио, кодовые базы с более чем 30 тысячами строк или более 700 тысяч слов. В исследовании Google ИИ успешно обрабатывала до 10 млн токенов.

Теги:
Хабы:
Рейтинг0
Комментарии0

Другие новости

Ближайшие события