Китайская компания ByteDance представила Goku — семейство нейросетей для генерации видео. Модели машинного обучения разработали совместно с исследователями Гонконгского университета.
![Горизонтальные видео от Goku Горизонтальные видео от Goku](https://habrastorage.org/getpro/habr/upload_files/354/63a/179/35463a1795c762ce15a60a986c3b9468.jpg)
Goku генерирует видео в горизонтальной и вертикальной ориентации экрана в нескольких режимах, включая Text to Video, Image to Video и Text to Image. Нейросеть построена на архитектуре Rectified flow transformers, которая за счёт коррекции потока данных между токенами создаёт более реалистичные и сложные работы.
![Вертикальные видео от Goku Вертикальные видео от Goku](https://habrastorage.org/getpro/habr/upload_files/5ab/d64/230/5abd642304587193adb78b99caf731c4.jpg)
В бенчмарке VBench модель Goku набрала 84,85 балла и в рейтинге Text to Video обошла нейросети Pika-1.0, OpenSora V1.2, Kling и Mira. В GenEval и DPG-Bench решение от ByteDance набрало 0,76 и 83,65 балла соответственно.
![Результаты тестов в VBench Результаты тестов в VBench](https://habrastorage.org/getpro/habr/upload_files/95b/944/17a/95b94417a958adabe902d5c22ea89424.png)
Помимо базовой модели семейство включает в себе Goku+ — нейросеть для генерации рекламных видео длительностью до 20 секунд. Нейросеть может создавать реалистичных людей в кадре, которые активно жестикулируют во время разговора. Помимо людей в кадр можно добавить рекламируемый продукт.
![Генеративная реклама от Goku+ Генеративная реклама от Goku+](https://habrastorage.org/getpro/habr/upload_files/a58/b52/dcd/a58b52dcdda3ad16d7229aad060841bc.jpg)
Примеры видео от Goku по промптам из MovieGenBench доступны на сайте проекта. Также авторы работы поделились текстом исследования, а результаты тестов опубликовали на GitHub.