вчера в 09:04

Добавил стриминг в Qwen3-TTS

Python * Машинное обучение * Искусственный интеллектOpen source *

Ожидает приглашения

На днях вышла Qwen3-TTS, но стриминг туда не завезли. Пришлось писать самому.

Ситуация интересная - В тех. репорте Qwen хвалятся "Extreme Low-Latency Streaming Generation", в репо лежат бенчмарки стриминга - а самого стриминга нет =) Разрабы переложили это на vLLM Omni, которые тоже пока не сделали online inference для Qwen3-TTS.

В этом репо стриминга нет и не будет. Его реализуют vLLM-Omni в будущем.

Поэтому я еще в день выхода сам написал native стриминг, благо архитектура позволяет

Как это работает

При обычном инференсе модель генерирует все токены -> декодер превращает их в аудио -> получаем wav.
Я добавил стриминг в классическом представлении: каждые N фреймов декодер отдаёт готовый кусок аудио наружу. Первый звук получаем через ~0.5-1 сек вместо ожидания всей фразы.

Что добавил:

stream_generate_pcm() - real-time PCM streaming

stream_generate_voice_clone() - streaming с voice cloning

На 5090 первый чанк аудио через 0.17с. вместо ожидания полных 12.58с RTF < 0.5

Форк: github.com/dffdeeq/Qwen3-TTS-streaming

Пример: examples/test_streaming.py

Бенчмарки (на 5090)

Обычный инференс:

Стриминг:

P.S. Писал для себя, но увидел, что люди интересуются, а реализации до сих пор нет, так что решил поделиться. Добавил еще доп. оптимизаций по типу torch.compile и CUDA graphs на декодер, torch.compile для CodePredictor и скорректировал проверки EOS для предотвращения синхронизации cpu, что дало ещё х3 к скорости инференса.

Хабы:

Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.

Точно не пройдут модерацию:

новости, анонсы и пресс-релизы;
материалы рекламного характера;
вакансии (для этого предназначена «Хабр Карьера»)
вопросы (используйте «Хабр Q&A»);
просьбы о помощи в решении задач;
жалобы на компании и предоставляемые услуги;
куски программного кода без подробных пояснений;
публикации, ранее опубликованные на других сайтах;
односложные материалы (пара абзацев или видеоролик);
статьи, слабо относящиеся к IT-тематике или не относящиеся к ней вовсе;
публикации, нарушающие правила сайта.

С большой вероятностью не пройдут модерацию (или будут отправлены на доработку):

материалы с низким (менее 75%) показателем уникального текста;
публикации без правильно расставленных знаков препинания, со смайликами, с обилием восклицательных знаков, неоправданным выделением слов и предложений;
плохо оформленные публикации (подробнее);