Как стать автором
Обновить

Комментарии 4

Человечество создает новую форму жизни )

Также им стал доступен новый API Multimodal Live, который поддерживает аудио в реальном времени

Получается это ближе к Realtime API и продвинутому голосовому режиму у ChatGPT? Только с видео и бесплатно. Интересно. Для видео юз кейсов может быть не так много, а вот бесплатный голосовой режим может быть полезен как минимум для изучения языков.

Я попробовал пол минуты поговорить на французском через AI Studio, первое впечатление достаточно положительное. Отвечает относительно короткими лаконичными фразами, но это наверно можно при необходимости исправить в системном промпте. Плохо что не показывают расшифровку того что я говорю.

у кого-нибудь получилось изображения хотя бы генерировать? сначала выдавал код, а теперь на те же запросы вообще пишет, что не может этого делать

Жаль, что это не полноценный голосовой режим, а text-to-speech и наоборот. Никакого распознавания и генерирования эмоций, пауз, акцента, шёпота, проверки произношения и т.д.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости