70 языков и нейросеть-актёр: чем удивил ElevenLabs v3 в новой версии своей TTS / Habr

В мире нейроозвучки случилось знаковое событие: ребята из ElevenLabs только что выкатили свою новую модель текст‑в‑речь — Eleven v3. И это шаг к тому, чтобы окончательно стереть грань между синтетическим и натуральным голосом.

Чем же так крута v3? Ну, представьте нейросеть, которая не просто проговаривает текст, а умеет:

Менять интонацию на лету — от радостного возгласа к задумчивой грусти.
Смеяться [laughs], вздыхать [sighs] или переходить на шепот [whispers] — да, прямо в тексте можно ставить такие аудиотеги.
Озвучивать диалоги нескольких персонажей с разными характерами — идеально для аудиодрам, подкастов или игр.
Звучать искренне, драматично, саркастично — в общем, передавать весь спектр эмоций.
Легко менять акценты или тональность прямо посреди предложения.
И даже петь. (Пока в альфе.)

Всё это стало возможно благодаря совершенно новой архитектуре модели. Разработчики заявляют, что Eleven v3 — самая выразительная TTS‑модель на сегодня. Ключевое слово здесь — контроль. Хотите, чтобы герой аудиокниги задрожал от страха или засмеялся? Пожалуйста. Нужно плавно переключиться между двумя персонажами в диалоге? Легко. Достигается это через специальные аудиотеги прямо в промпте — как команды для опытного актера озвучки.

«С Eleven v3 вы получаете полный контроль над эмоциями, подачей и невербальными сигналами, — не без гордости заявил Мати Станишевски, сооснователь и CEO ElevenLabs. — Вы можете управлять темпом, эмоцией и стилем, чтобы они идеально соответствовали любому сценарию. И, следуя нашей глобальной миссии, мы рады расширить поддержку модели до более чем 70 языков».

И да, про языки — это отдельный большой плюс. Если раньше модель понимала 33 языка (охватывая ~60% населения планеты), то теперь их больше 70, а покрытие выросло до внушительных 90%. Правда, с надежностью на всех языках пока могут быть нюансы — над этим обещают поработать в будущих обновлениях.

Для кого это?

В первую очередь — создателей контента, разработчиков и компаний, которые работают с экспрессивными проектами:

Аудиокниги и подкасты, где важны живые характеры.
Сторителлинг и интерактивные истории (вроде текстовых квестов или визуальных новелл).
Также генерация речи NPC в играх.
Любые проекты, где нужна не просто информация, а эмоциональная глубина и жизнеподобие.

Отдельно стоит упомянуть режим диалога (Dialogue Mode). Он позволяет модели естественно обрабатывать перебивания, смену тона и эмоциональное течение разговора между несколькими говорящими. А в ближайших планах — поддержка стриминга для реального времени. Это открывает двери для использования в кол‑центрах и чат‑ботах нового поколения, где синтез речи должен быть мгновенным и бесшовным.

«Этот релиз — результат видения и лидерства сооснователя Петра и невероятной исследовательской команды, которую он построил, — добавил Станишевски. — Создать хороший продукт сложно — создать совершенно новую парадигму почти невозможно. Мы все в ElevenLabs чувствуем себя счастливчиками, наблюдая за магией, которую оживляет команда».

Итог

Eleven v3 выглядит крайне многообещающе. Это серьезная заявка на лидерство в области эмоционального и контролируемого синтеза речи. Теперь дело за создателями контента и разработчиками — какие невероятные аудиомиры они построят с такими инструментами?

Попробовать генерировать можно здесь на главной странице: https://elevenlabs.io/v3 (понадобится зарегистрировать аккаунт).

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

70 языков и нейросеть-актёр: чем удивил ElevenLabs v3 в новой версии своей TTS

Для кого это?

Итог

{{ titleHtml }}

{{ titleHtml }}