
Компания ByteDance представила собственную мультимодальную систему генерации контента — Waver 1.0. Она умеет создавать видео по текстовому запросу, превращать изображения в ролики, а также генерировать картинки из описаний.
Waver поддерживает разрешение до 1080p и позволяет создавать ролики продолжительностью от двух до десяти секунд. Разработчики отмечают, что система особенно хорошо справляется со сложными сценариями движения, а на специализированных бенчмарках Waver-Bench 1.0 и Hermes демонстрирует результаты выше конкурентов.
Архитектура модели построена на комбинации DiT и двух текстовых энкодеров — flan-t5-xxl и Qwen2.5-32B. Для вывода видео в Full HD применяется отдельный модуль Waver-Refiner, повышающий разрешение с помощью диффузионного процесса. Дополнительную роль в улучшении качества играет технология APG, которая снижает количество артефактов на финальном этапе инференса.
Весов модели в открытый доступ пока не обещают, но протестировать Waver можно в официальном Discord-сообществе.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!