Google представила Gemini 2.0 Flash и ИИ-агентов / Комментарии / Хабр

boris_su 12 дек 2024 в 09:12

Человечество создает новую форму жизни )

AlexanderAnisimov 12 дек 2024 в 11:07

Также им стал доступен новый API Multimodal Live, который поддерживает аудио в реальном времени

Получается это ближе к Realtime API и продвинутому голосовому режиму у ChatGPT? Только с видео и бесплатно. Интересно. Для видео юз кейсов может быть не так много, а вот бесплатный голосовой режим может быть полезен как минимум для изучения языков.

Я попробовал пол минуты поговорить на французском через AI Studio, первое впечатление достаточно положительное. Отвечает относительно короткими лаконичными фразами, но это наверно можно при необходимости исправить в системном промпте. Плохо что не показывают расшифровку того что я говорю.

vanvitelli 12 дек 2024 в 13:01

у кого-нибудь получилось изображения хотя бы генерировать? сначала выдавал код, а теперь на те же запросы вообще пишет, что не может этого делать

Dron007 12 дек 2024 в 16:58

Жаль, что это не полноценный голосовой режим, а text-to-speech и наоборот. Никакого распознавания и генерирования эмоций, пауз, акцента, шёпота, проверки произношения и т.д.

Google представила Gemini 2.0 Flash и ИИ-агентов

Комментарии 4

Другие новости