Генерация видео с помощью Wan2.2: установка и первые впечатления / Хабр

Генеративный искусственный интеллект способен создавать не только текст, но и изображения, музыку и видео. Ничего нового. Однако модели для создания видео специфичны: они требуют больше вычислительных ресурсов и более детальной настройки. Спойлер: это решаемая задача.

В этой статье разберемся, как запустить Wan2.2 на своем облачном сервере, сколько ей нужно памяти и какие конфиги прописать, чтобы все запустилось с первого раза. Подробности под катом!

Что такое Wan2.2

Wan2.2 — это современная модель ИИ для генерации HD-видео, разработанная компанией Alibaba.

Главное отличие от предыдущих версий — архитектура Mixture-of-Experts (MoE), которая позволяет выдавать более «киношную» картинку при сохранении той же вычислительной сложности.

Wan2.2 предлагает четыре вида моделей для разных задач:

i2v (Image-to-Video) — генерация видео по изображению;
t2v (Text-to-Video) — генерация видео по текстовому описанию;
ti2v — гибрид моделей i2v и t2v;
Animate — модель, адаптированная для анимирования персонажей на изображении.

Генерация видео — это очень ресурсоемкая задача даже для GPU. Оригинальная модель Wan2.2 требует не менее 80 ГБ VRAM для запуска. Тем не менее, различные технологии выгрузки (offloading) позволяют снизить требуемый объем видеопамяти, но это заметно замедлит процесс генерации.

Как и в случае с большими языковыми моделями, для видеомоделей есть облегченные версии с меньшими требованиями. Например, FastWan требует всего 1,5 ГБ VRAM, но и качество изображений будет соответствующим.

Wan можно установить локально, но я покажу на примере облачного сервера для максимальной производительности.

Заказ сервера

Будем использовать «богатую» конфигурацию облачного сервера с видеокартой H100 (80 ГБ VRAM). Для запуска воспользуемся облачной платформой.

Она удобна оплатой по модели «pay-as-you-go» (т. е. только за фактически потребленные ресурсы) и возможностью быстрого масштабирования: сперва оценим, сколько ресурсов потребляет модель, а затем уменьшим конфигурацию, чтобы не тратить деньги зря.

Переходим в панель управления → Продукты → Облачные серверы → Создать сервер.

Выбираем регион Москва, пул ru-7b — именно там находятся наиболее мощные видеокарты. Я выбрал одну из преднастроенных GPU-конфигураций: 12 vCPU, 128 ГБ RAM, H100. В качестве операционной системы — Ubuntu 24.04 LTS с установленными драйверами NVIDIA.

Диск — «Универсальный SSD», чтобы быстро работать с большими файлами модели, и обязательно указываем SSH-ключ для доступа. Осталось нажать Создать сервер.

Сервер создан. Копируем IP-адрес из панели и подключаемся по SSH. Первым делом проверим состояние видеокарты командой nvidia-smi — если драйверы на месте, мы увидим нашу H100 в списке устройств.

$ ssh root@155.212.X.X                                                                                                           
The authenticity of host '155.212.X.X (155.212.X.X)' can't be established.
ED25519 key fingerprint is SHA256:tiC9yNkT7OwitbIWqukyQaeCoagId3a2ve8RLwVMa8U.
This key is not known by any other names.
Are you sure you want to continue connecting (yes/no/[fingerprint])? yes
Warning: Permanently added '155.212.X.X' (ED25519) to the list of known hosts.
root@wan:~# nvidia-smi
Tue Apr  7 07:09:16 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09             Driver Version: 580.126.09     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 PCIe               Off |   00000000:00:06.0 Off |                    0 |
| N/A   47C    P0             87W /  350W |       0MiB /  81559MiB |      2%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Отлично, железка видна и все работает.

Установка ComfyUI

Документация для модели Wan2.2 предполагает «сырое» использование — без графического интерфейса и предпросмотра, полностью в Python-код. К счастью, есть универсальный визуальный редактор, который упростит жизнь — ComfyUI.

1. Устанавливаем необходимые зависимости. В облачном образе уже есть Python 3.12, который нужен для ComfyUI, мы добавляем модуль для создания виртуальных сред:

apt update
apt install python3.12-venv

2. Клонируем репозиторий:

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI/

3. Создаем виртуальную среду и активируем ее:

python3 -m venv venv
source venv/bin/activate

4. Устанавливаем зависимости, необходимые для работы ComfyUI. Обратите внимание на индекс CUDA — он должен соответствовать версии драйверов на вашем сервере:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
pip install -r requirements.txt

5. Запускаем:

python3 main.py

Доступ к интерфейсу

ComfyUI запустится по адресу http://127.0.0.1:8188. Так как это локальный адрес, вы не сможете к нему подключиться напрямую из браузера. Есть два варианта:

настроить обратный прокси-сервер, подключить SSL и получить доступ по внешнему адресу сервера по HTTPS;
пробросить порт 8188 с облачного сервера на свой компьютер.

Второй вариант быстрее и лучше подходит для личного пользования. На своем компьютере вводим команду:

ssh -N -L 8188:127.0.0.1:8188 root@155.212.X.X

Вот и все, ComfyUI теперь доступен в браузере.

Если вы закрыли SSH-сессию с сервером, то перезапустить ComfyUI можно так:

cd ComfyUI/
source venv/bin/activate
python3 main.py

Загрузка модели

При первом старте ComfyUI предлагает шаблон, с которого можно начать. На вкладке Video выбираем Wan-2.2. Однако это лишь шаблон, самих моделей, которые выполняют полезную деятельность, на сервере еще нет.

Появится ошибка о том, что файлы отсутствуют. Нажимаем See errors и в появившемся окне ComfyUI покажет, чего не хватает. В случае с Wan 2.2 ComfyUI показывает ссылки, по которым можно скачать модели, но он не делает это за нас.

Скачиваем самостоятельно. Правильные ссылки получите по кнопке Copy URL — на случай, если они изменятся. Все модели хранятся в каталоге models/ и в подкаталоге, которые выделен красным на скриншоте.

Скачивать придется самостоятельно, любым удобным способом. В итоге должна получиться такая структура для работы моделей Текст-в-Видео (Text-to-Video, t2v) и Изображение-в-Видео (Image-to-Video, i2v). Структура должна выглядеть так:

models
├── diffusion_models
│   ├── wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
│   ├── wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
│   ├── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   └── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
├── loras
│   ├── put_loras_here
│   ├── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│   ├── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│   ├── wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors
│   └── wan2.2_t2v_lightx2v_4steps_lora_v1.1_low_noise.safetensors
├── text_encoders
│   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
└── vae
    └── wan_2.1_vae.safetensors

После того как файлы загружены, обновите страницу в браузер. Инструмент готов к работе.

Генерация видео

Рабочие области i2v и t2v довольно тривиальны: загружаем изображение и промт или позитивный и негативный промты, а после нажимаем Run в верхнем правом углу.

Результат, а также время генерации доступны под кнопкой запуска. Также все результаты дублируются в левой панели Assets.

Загруженные модели занимают 34 ГБ VRAM, а генерация видео 640х640 длиной пять секунд занимает 20-30 секунд реального времени. Модель также запускается на менее мощных видеокартах: например, на RTX A2000 с 6 ГБ VRAM тот же процесс занял 600 секунд.

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

Результаты

В этой части вы можете оценить качество генерации в Wan2.2.

Изображение в видео

Интернет начинается с котиков. Модель i2t генерирует их довольно правдоподобно. При этом Wan2.2 отчаянно отказывается галлюцинировать: я хотел, чтобы она продлила мою картинку в бой на лазерных мечах, но модель выдала только поглаживание. Дополнительный промт про эпическую битву кота и голубя не помог — ни сражения, ни мечей мы так и не увидели.

Минималистичные персонажи из текста про бесконечное лето, конечно, анимировались, но с некоторыми артефактами.

Текст в видео

Запрос: epic lasersaber fight between cat and pigeon. — Запрос: *epic lasersaber fight between cat and pigeon.*

Если вам не хватило эпичного сражения голубя и кота на лазерных мечах… То вам его и не хватит. Но голубь определенно подкачался к этой битве и сменил класс.

Итог

Wan2.2 — инструмент для тех, кому нужен open source-генератор видео без ограничений проприетарных сервисов.

В базе модель довольно скромная и обучена на отфильтрованных данных, что накладывает косвенные ограничения — например, слабую проработку NSFW или сложные сцены из-за отсутствия данных в тренировке.

Но решается это гибко: открытая архитектура позволяет сообществу выпускать LoRA и файнтюны, а встроенные в модель high/low-noise эксперты (MoE) помогают эффективно прорабатывать детали при генерации. Это снимает многие ограничения исходной выборки.

Да, она требовательна к железу, но это поправимо: гибкость настройки через ComfyUI и запуск в облаке решают проблему «входа».

А что думаете вы? Пишите в комментариях, какие модели уже успели потестить и на каком железе.

Генерация видео с помощью Wan2.2: установка и первые впечатления