Комментарии 4
Человечество создает новую форму жизни )
Также им стал доступен новый API Multimodal Live, который поддерживает аудио в реальном времени
Получается это ближе к Realtime API и продвинутому голосовому режиму у ChatGPT? Только с видео и бесплатно. Интересно. Для видео юз кейсов может быть не так много, а вот бесплатный голосовой режим может быть полезен как минимум для изучения языков.
Я попробовал пол минуты поговорить на французском через AI Studio, первое впечатление достаточно положительное. Отвечает относительно короткими лаконичными фразами, но это наверно можно при необходимости исправить в системном промпте. Плохо что не показывают расшифровку того что я говорю.

у кого-нибудь получилось изображения хотя бы генерировать? сначала выдавал код, а теперь на те же запросы вообще пишет, что не может этого делать
Жаль, что это не полноценный голосовой режим, а text-to-speech и наоборот. Никакого распознавания и генерирования эмоций, пауз, акцента, шёпота, проверки произношения и т.д.
Google представила Gemini 2.0 Flash и ИИ-агентов