Search
Write a publication
Pull to refresh

ByteDance выпустила Goku — семейство нейросетей для генерации видео

Reading time1 min
Views5.5K

Китайская компания ByteDance представила Goku — семейство нейросетей для генерации видео. Модели машинного обучения разработали совместно с исследователями Гонконгского университета.

Горизонтальные видео от Goku
Горизонтальные видео от Goku

Goku генерирует видео в горизонтальной и вертикальной ориентации экрана в нескольких режимах, включая Text to Video, Image to Video и Text to Image. Нейросеть построена на архитектуре Rectified flow transformers, которая за счёт коррекции потока данных между токенами создаёт более реалистичные и сложные работы.

Вертикальные видео от Goku
Вертикальные видео от Goku

В бенчмарке VBench модель Goku набрала 84,85 балла и в рейтинге Text to Video обошла нейросети Pika-1.0, OpenSora V1.2, Kling и Mira. В GenEval и DPG-Bench решение от ByteDance набрало 0,76 и 83,65 балла соответственно.

Результаты тестов в VBench
Результаты тестов в VBench

Помимо базовой модели семейство включает в себе Goku+ — нейросеть для генерации рекламных видео длительностью до 20 секунд. Нейросеть может создавать реалистичных людей в кадре, которые активно жестикулируют во время разговора. Помимо людей в кадр можно добавить рекламируемый продукт.

Генеративная реклама от Goku+
Генеративная реклама от Goku+

Примеры видео от Goku по промптам из MovieGenBench доступны на сайте проекта. Также авторы работы поделились текстом исследования, а результаты тестов опубликовали на GitHub.

Tags:
Hubs:
Total votes 5: ↑5 and ↓0+10
Comments5

Other news