70 языков и нейросеть-актёр: чем удивил ElevenLabs v3 в новой версии своей TTS
В мире нейроозвучки случилось знаковое событие: ребята из ElevenLabs только что выкатили свою новую модель текст‑в‑речь — Eleven v3. И это шаг к тому, чтобы окончательно стереть грань между синтетическим и натуральным голосом.
Чем же так крута v3? Ну, представьте нейросеть, которая не просто проговаривает текст, а умеет:
Менять интонацию на лету — от радостного возгласа к задумчивой грусти.
Смеяться [laughs], вздыхать [sighs] или переходить на шепот [whispers] — да, прямо в тексте можно ставить такие аудиотеги.
Озвучивать диалоги нескольких персонажей с разными характерами — идеально для аудиодрам, подкастов или игр.
Звучать искренне, драматично, саркастично — в общем, передавать весь спектр эмоций.
Легко менять акценты или тональность прямо посреди предложения.
И даже петь. (Пока в альфе.)
Всё это стало возможно благодаря совершенно новой архитектуре модели. Разработчики заявляют, что Eleven v3 — самая выразительная TTS‑модель на сегодня. Ключевое слово здесь — контроль. Хотите, чтобы герой аудиокниги задрожал от страха или засмеялся? Пожалуйста. Нужно плавно переключиться между двумя персонажами в диалоге? Легко. Достигается это через специальные аудиотеги прямо в промпте — как команды для опытного актера озвучки.
«С Eleven v3 вы получаете полный контроль над эмоциями, подачей и невербальными сигналами, — не без гордости заявил Мати Станишевски, сооснователь и CEO ElevenLabs. — Вы можете управлять темпом, эмоцией и стилем, чтобы они идеально соответствовали любому сценарию. И, следуя нашей глобальной миссии, мы рады расширить поддержку модели до более чем 70 языков».
И да, про языки — это отдельный большой плюс. Если раньше модель понимала 33 языка (охватывая ~60% населения планеты), то теперь их больше 70, а покрытие выросло до внушительных 90%. Правда, с надежностью на всех языках пока могут быть нюансы — над этим обещают поработать в будущих обновлениях.
Для кого это?
В первую очередь — создателей контента, разработчиков и компаний, которые работают с экспрессивными проектами:
Аудиокниги и подкасты, где важны живые характеры.
Сторителлинг и интерактивные истории (вроде текстовых квестов или визуальных новелл).
Также генерация речи NPC в играх.
Любые проекты, где нужна не просто информация, а эмоциональная глубина и жизнеподобие.
Отдельно стоит упомянуть режим диалога (Dialogue Mode). Он позволяет модели естественно обрабатывать перебивания, смену тона и эмоциональное течение разговора между несколькими говорящими. А в ближайших планах — поддержка стриминга для реального времени. Это открывает двери для использования в кол‑центрах и чат‑ботах нового поколения, где синтез речи должен быть мгновенным и бесшовным.
«Этот релиз — результат видения и лидерства сооснователя Петра и невероятной исследовательской команды, которую он построил, — добавил Станишевски. — Создать хороший продукт сложно — создать совершенно новую парадигму почти невозможно. Мы все в ElevenLabs чувствуем себя счастливчиками, наблюдая за магией, которую оживляет команда».
Итог
Eleven v3 выглядит крайне многообещающе. Это серьезная заявка на лидерство в области эмоционального и контролируемого синтеза речи. Теперь дело за создателями контента и разработчиками — какие невероятные аудиомиры они построят с такими инструментами?
Попробовать генерировать можно здесь на главной странице: https://elevenlabs.io/v3 (понадобится зарегистрировать аккаунт).
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.