Search
Write a publication
Pull to refresh

20 мая на конференции Google I/O холдинг Alphabet представил модель генерации видеороликов Veo 3. Этот продукт создаёт небольшие клипы. Казалось бы, подобные решения уже существовали до этого — взять тот же Sora от OpenAI. Важное отличие заключается в том, что Veo 3 выдаёт не просто какой-то видеоряд, а снабжает его нужной аудиодорожкой. Эпоха немого нейросетевого кино кончилась; наступила эра звука.

Что ещё более важно, модель Veo 3 быстро вышла практически в общий, пусть и платный доступ, сейчас есть даже API. Если сравнивать с Sora, то OpenAI своим продуктом изначально делилась лишь с неким узким кругом киноделов и лишь через почти 10 месяцев (объявление о продукте 15 февраля 2024 года, релиз 9 декабря) добавила модель в подписки ChatGPT Plus и Pro. API у Sora нет до сих пор.

Veo 3 немедленно захватила умы любителей вбивать в генеративные модели какой-нибудь глупый промпт, а потом делиться невозможным и несбыточным. В таких образцах сразу очевидно, что видеоролик сгенерировала нейросеть. Это мог быть личный видеоблог от говорящей гориллы, к примеру. На самом деле такое быстро наскучивает.

Известный исследователь искусственного интеллекта Итан Моллик пошёл от обратного и попытался изобразить обыденное. У себя в микроблоге Моллик показал несколько забавных клипов от Veo 3, где изображена постановка театра самодеятельности. Итан даже приводит полный промпт, который он вбивал в модель: [название игры] as a community theater production.

Во врезке ниже склеены несколько его примеров. Игры в порядке их следования: Grand Theft Auto, Pokemon, Mario Kart, «Ведьмак-3», Stardew Valley, «Тетрис», Mortal Kombat, The Sims и Death Stranding. Затем идёт клип от промпта pokemon as a community theater production, ash throws a pokeball and pikachu jumps out of it (Эш бросает покебол, из него выпрыгивает Пикачу). Видео заканчивается примерами генерации, где вместо [название игры] стояли Kirby, Portal, Mario, Pacman, Sonic и Minecraft.

Любопытно, что эти примеры поражают куда сильнее любых пасущихся в саванне вязаных слонов или разъезжающих на бегемоте пенсионерок. Хотя часты грубые ошибки генерации (пропадания объектов и их появление из ниоткуда) и мелкие огрехи (в костюме крипера женщина, а говорит она мужским голосом), часто невозможно отличить происходящее от съёмки реального кружка самодеятельности. Модель будто понимает физические ограничения самостоятельно пошитых костюмов и цветного картона, а на лицах актёров читается любительская игра.

В комментариях предложили другие игры: Doom, Rimworld, Silent Hill, Half-Life и Grim Fandango. Сам Моллик придумал показать закулисье этих драмкружков и записать речь о подобном театре.

Tags:
+4
Comments1

Articles