Как стать автором
Обновить

ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K
Автор оригинала: Jim Clyde Monge
ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров
ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Согласитесь ли вы со мной, если я скажу, что наступает эра фейковых блогеров?

По правде говоря, она уже наступила.

Согласно исследованию Influencer Marketing Hub, 31,7 % брендов считают, что виртуальные блогеры имеют преимущество перед реальными. Еще 29,1 % назвали их круглосуточную доступность самым большим преимуществом.

Сегодня существуют ИИ-платформы, позволяющие создавать образы привлекательных женщин и генерировать реалистичные видеоролики с их участием. Некоторые из них даже являются бесплатными.

Однако, судя по моему личному опыту, сгенерированные видеоролики с людьми по-прежнему не отличаются реалистичностью. Большинство, если не все, видеомодели по-прежнему испытывают трудности с согласованностью движений.

Недавно Гонконгский университет официально представил модель для генерации видео Goku, разработанную в сотрудничестве с ByteDance. Эта новая видеомодель позволяет создавать максимально реалистичные видеоролики в стиле видео для Tik Tok, в том числе и для создания видеороликов с ИИ-блогерами.

Что такое Goku?

Goku - это семейство моделей, построенных на архитектуре Rectified flow transformers и предназначенных для генерации изображений и видео.

Goku поддерживает множество задач по генерации:

  • 🎬 Генерация видео по текстовому запросу

  • 🖼 Генерация видео из изображений

  • 🎨 Генерация изображений по текстовому запросу

У Goku есть еще одна разновидность под названием Goku+, которая позволяет напрямую создавать видео с виртуальными людьми.

ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров
ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Она даже создает видео длительностью более 20 секунд, с естественными движениями рук и очень выразительной мимикой и движениями тела.

Взгляните на эти примеры:

ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров
ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Чтобы гарантировать, что Goku создаст высококачественное видео, модель обучается на наборе данных, который является визуально привлекательным, контекстуально релевантным и разнообразным.

Конвейер обработки данных состоит из пяти основных этапов:

  1. Сбор изображений и видео

  2. Извлечение и обрезка видео

  3. Фильтрация изображений и видео

  4. Создание надписей

  5. Балансировка распределения данных

ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров
ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Более подробную информацию о технических деталях вы можете найти в этом техническом документе.

Примеры использования

В приведенные ниже примерах демонстрируются возможности Goku+:

  • 1. Рекламный ролик

  • 2. Взаимодействие продукта и человека

  • 3. Превращение изображения продукта в видеоклип

  • 4. Видео по текстовому промпту

Пример №1: Рекламный ролик

Этот ролик от Goku+ идеально показывает потенциал создания рекламных видео для бьюти-индустрии. Меня впечатлило то, как точно авторам видео удалось отразить всю основную “энергетику” TikTok. Все кадры прямо пропитаны той самой эстетикой, которая полюбилась многим пользователям популярных соцсетей.

Итак, интересный вопрос остается относительно происхождения обучающих данных модели. Действительно ли команда разработчиков Goku просто использовали миллионы роликов из TikTok? И получили ли они согласие авторов этого контента? На данный момент на эти вопросы нет ответов.

Пример № 2: Взаимодействие продукта и человека

Наконец, хотелось бы отметить интересные результаты второго примера. Взаимодействие сгенерированного персонажа с продуктом необычайно естественное. В некоторых моментах кажется, будто ты просто смотришь обзор от знакомого блогера. Каждое движение и каждый жест выглядит очень органично, поэтому трудно поверить, что этот контент не снят, а сгенерирован. Такой уровень естественности сейчас крайне востребован в маркетинге и рекламе.

Задумайтесь о том, чтобы использовать ИИ-блогера в качестве продавца вместо вас. Он может стать хорошим помощником, тем более когда ваши время ограничено.

Пример № 3: Видеоклип из изображения продукта

Среди всех возможностей Goku+ особенно хочется выделить полезную функцию, с помощью которой вы можете превращать обычные фотографии вашего товара в динамичные видеоролики. Представьте только: вместо того чтобы тратить время и ресурсы на аренду полноценной съемочной площадки, выбор освещения и многочасовые съемки, вы просто загружаете в Goku+ качественный снимок вашего продукта, а он добавляет легкие, почти неуловимые движения, играет с деталями и создает захватывающий видеоконтент, который притягивает внимание зрителя.

Это огромная экономия времени, особенно для онлайн-продавцов, которым быстро нужен динамический контент. Однако сохранит ли Goku+ этот уровень соответствия эталонному изображению, еще предстоит выяснить.

Пример № 4: Генерация видео по текстовому запросу

А теперь обратите внимание, как Goku+ генерирует видео по простому текстовому промпту. Модель генерирует видео, которое выглядит как сцена из популярного корейского телешоу.

Промпт: Two women are sitting at a table in a room with wooden walls and a plant in the background. Both women look to the right and talk, with surprised expressions.

Могут ли Goku+ когда-нибудь использовать в производстве телешоу? Это, конечно, вызовет множество споров.

Как получить доступ к Goku?

В данный момент Goku в стадии исследовательской работы, поэтому у него пока нет сайта. Следите за страницами разработчиков на GitHub и HuggingFace, чтобы не пропустить будущие обновления.

Goku+ впечатляет - видеоролики с примерами выглядят просто фантастически. Но это лишь отдельные примеры, а реальную картину мы узнаем только после публичного релиза. Когда мы увидим его в действии для всех видов контента, мы получим реальное представление о том, действительно ли он может обеспечить стабильную и высококачественную производительность.

Теги:
Хабы:
+3
Комментарии13

Публикации

Истории

Работа

Data Scientist
62 вакансии

Ближайшие события