2 октября 2025 года компания Neuphonic представила NeuTTS Air - открытую модель преобразования текста в речь, которая кардинально меняет подход к синтезу голоса. Главная особенность в том, что она работает полностью локально на обычных устройствах без необходимости подключения к интернету или облачным сервисам.

Что это такое и зачем нужно

Представьте, что вы можете создавать реалистичную речь прямо на своём смартфоне, ноутбуке или даже Raspberry Pi, не отправляя данные на сторонние серверы. Именно это и предлагает NeuTTS Air. Модель не просто синтезирует голос, она умеет мгновенно клонировать его, используя всего 3 секундный образец аудио.

Это открывает новые возможности для разработчиков:

  • Создание голосовых ассистентов, работающих офлайн

  • Приложения для людей с ограниченными возможностями

  • Инструменты для озвучивания контента

  • Встраиваемые системы с голосовым интерфейсом

  • Решения для сфер с повышенными требованиями к конфиденциальности (медицина, финансы)

Технические характеристики

NeuTTS Air построена на базе компактной языковой модели с 748 миллионами параметров. В основе лежит оптимизированный трансформер Qwen 0.5B, который отвечает за понимание и генерацию текста. Для обработки аудио используется проприетарный кодек NeuCodec, который сжимает звук до 0,8 кбит/с, сохраняя при этом качество вывода на уровне 24 кГц.

Основные характеристики:

Параметр

Значение

Размер модели

Менее 200 МБ

Количество параметров

748 млн

Частота аудио на выходе

24 кГц

Требования к железу

CPU (GPU не требуется)

Скорость генерации

Реальное время

Время для клонирования голоса

3-15 секунд аудио

Лицензия

Apache 2.0

Компактный размер модели достигается за счет квантования GGUF (доступны форматы Q4 и Q8), что позволяет эффективно использовать ресурсы процессора без необходимости в мощной видеокарте.

Мгновенное клонирование голоса

Одна из самых впечатляющих функций - это возможность клонировать голос практически мгновенно. Вам нужно всего лишь:

  1. Короткий аудиофрагмент (3-15 секунд чистой речи)

  2. Текстовая расшифровка этого фрагмента

Модель анализирует образец, извлекает характеристики голоса - тембр, интонацию, ритм и может синтезировать любой новый текст этим же голосом. При этом не требуется дополнительное обучение или настройка модели.

Важно: для лучших результатов используйте чистые монофонические WAV-файлы с частотой 16-44 кГц. Шумные записи или слишком короткие образцы могут снизить качество синтеза.

Конфиденциальность и безопасность

В эпоху, когда данные пользователей становятся всё более ценным ресурсом, локальная обработка - это не просто удобство, а необходимость для многих приложений. NeuTTS Air решает эту проблему радикально: все данные остаются на устройстве пользователя.

При этом разработчики позаботились об ответственном использовании технологии:

  • Все сгенерированные аудиофайлы содержат неслышимую водяную маркировку Perth

  • Это помогает отслеживать происхождение аудио и предотвращать злоупотребления

  • Компания явно запрещает использование для создания дипфейков или обманного контента

Как начать использовать

Начать работу с NeuTTS Air не сложно. Модель доступна на GitHub и Hugging Face с открытым исходным кодом (ссылки ниже).

Базовая установка:

# Клонируем репозиторий
git clone https://github.com/neuphonic/neutts-air

# Устанавливаем зависимости
pip install -r requirements.txt

# Также потребуется espeak для фонемизации
# В Linux: apt-get install espeak-ng
# В macOS: brew install espeak

Пример использования:

python -m examples.basic_example \
  --input_text "Привет! Это синтезированная речь" \
  --ref_audio samples/voice.wav \
  --ref_text samples/voice.txt

Для более продвинутого использования доступен Python API, который позволяет интегрировать модель в свои приложения:

from neutts_air import NeuTTSAir

# Инициализация модели
tts = NeuTTSAir()

# Кодирование референсного голоса
ref_encoding = tts.encode_reference(
    audio_path="voice.wav",
    transcript="Текст из аудио"
)

# Синтез новой речи
audio = tts.synthesize(
    text="Новый текст для озвучки",
    reference=ref_encoding
)

# Сохранение результата
tts.save_wav(audio, "output.wav")

Сравнение с облачными решениями

Давайте посмотрим, как NeuTTS Air выглядит на фоне популярного облачного сервиса ElevenLabs v2.5:

Характеристика

NeuTTS Air

ElevenLabs v2.5

Тип доступа

Открытый код, бесплатно

Закрытый код, платная подписка

Место обработки

Локально на устройстве

В облаке

Интернет

Не требуется

Обязателен

Конфиденциальность

Полная (данные не покидают устройство)

Данные передаются на сервер

Скорость

Зависит от вашего CPU

Зависит от интернета и нагрузки сервера

Требования к железу

CPU среднего уровня

Любое с интернетом

Языки

Пока в основном английский

Множество языков

Конечно, облачные решения предлагают некоторые преимущества - большие библиотеки готовых голосов, продвинутое управление эмоциями, поддержку множества языков. Но NeuTTS Air выигрывает там, где критична конфиденциальность, автономность работы и отсутствие recurring costs.

Ограничения и особенности

Как и любая технология, NeuTTS Air имеет свои ограничения:

Качество входных данных: Модель чувствительна к качеству референсного аудио. Шумные записи, сильные акценты или нестандартное произношение могут снизить точность клонирования.

Языковая поддержка: На момент запуска акцент сделан на английском языке. Поддержка других языков, включая русский, пока не подтверждена официально, хотя архитектура потенциально это позволяет.

Производительность: Хотя модель работает в реальном времени на процессорах среднего уровня, генерация может занять больше времени на слабых устройствах. По отзывам пользователей, время синтеза составляет около 26 секунд для некоторых конфигураций.

Размер контекста: Модель оптимизирована для коротких фраз и предложений. Для синтеза длинных текстов может потребоваться разбиение на части.

Практическое применение

Где можно использовать NeuTTS Air уже сегодня:

Образование и доступность: Создание инструментов для людей с нарушениями зрения или речи, которые работают без подключения к интернету.

Встраиваемые системы: Голосовые интерфейсы для умных домов, автомобильных систем, промышленного оборудования. Т.е. всё, что требует автономной работы.

Контент-индустрия: Быстрое прототипирование озвучки для видео, подкастов, аудиокниг. Особенно полезно для черновых версий.

Конфиденциальные сферы: Медицинские приложения, финансовые консультанты, юридические сервисы - везде, где передача голосовых данных на сторонние серверы нежелательна.

Игровая индустрия: Динамическая генерация реплик NPC с уникальными голосами без необходимости записи тысяч строк диалогов.

Перспективы развития

NeuTTS Air - это только начало. Как открытый проект, модель может развиваться силами сообщества:

  • Добавление поддержки новых языков

  • Улучшение обработки шумных записей

  • Оптимизация для мобильных платформ

  • Интеграция с популярными фреймворками

  • Расширение возможностей управления эмоциональной окраской

Уже сейчас в репозитории на GitHub активно обсуждаются различные улучшения, а энтузиасты экспериментируют с моделью на разных языках и платформах.

Выводы

NeuTTS Air представляет собой значительный шаг в демократизации технологий синтеза речи. Компания Neuphonic создала инструмент, который делает качественную генерацию голоса доступной для разработчиков без необходимости в дорогой инфраструктуре или зависимости от облачных сервисов.

Основные преимущества:

  • Полная локальная обработка без передачи данных

  • Компактный размер и низкие требования к железу

  • Открытый исходный код и бесплатное использование

  • Мгновенное клонирование голоса

  • Работа в реальном времени на CPU

Что стоит учитывать:

  • Пока в основном английский язык

  • Требовательность к качеству входных данных

  • Меньше готовых функций по сравнению с облачными гигантами

Для разработчиков, которые ценят конфиденциальность, автономность и открытость, NeuTTS Air - отличный выбор для экспериментов и создания новых приложений с голосовым интерфейсом.

Полезные ссылки


*Статья подготовлена на основе открытых источников и официальной документации проекта. Версия модели на момент публикации: релиз от 2 октября 2025 года.