Как я сделал Claude мультимодальным, подключив к нему Qwen Omni / Хабр

Claude слепой. К сожалению ни одна модель Антропиков не работает напрямую с видео.
Да, можно нарезать хоть на каждый кадр и скормить ему, но это не то. Контекст движения теряется, а без него это просто разбор кучи кадров на составляющие и попытка собрать контекст воедино.

Для меня как для визуального артиста это большая боль, потому что часто хочется отправить видео-рефы и попросить разобрать движение камеры, персонажа, дизайн в конце концов.

И вот конкретная задача - 29 сгенерированных видео-референсов анимации персонажа лежат в папке проекта, надо их разобрать по категориям и описать каждое движение.
Вручную мне заниматься этим, конечно же, лень. Час-полтора времени на нудную задачу.

Тогда я вспомнил про Qwen Omni, которым уже пользуюсь для создания Цифрового риалтайм персонажа-ассистента. И подумал, а почему бы не подружить их.

Идея

Claude отлично умеет запускать Python, парсить текст и принимать решения на основе результата. Отсюда идея моста: Claude кидает видео в Qwen, получает текстовый разбор и дальше работает с ним как с обычным контекстом.

Пользователь → Claude → qwen_bridge.py → Qwen Omni API → Claude → Пользователь
                "разбери видео"         (смотрит)          "вот что я увидел"

Мост: один файл, одна зависимость

Весь мост — qwen_bridge.py, 226 строк. Единственная зависимость — dashscope, официальный SDK от Alibaba. Python 3.9+, работает на Mac, Linux, Windows.

Логика простая: берёт путь к файлу и промпт, определяет тип (видео или картинка), конвертирует путь в file URI, отправляет в Qwen через DashScope API, возвращает текст. Ничего хитрого.

# Базовый вызов
python3 qwen_bridge.py video.mp4 "Опиши движение персонажа"

# Экономный режим для длинных видео
python3 qwen_bridge.py video.mp4 "Общий анализ" --fps 1

# JSON-вывод для парсинга
python3 qwen_bridge.py video.mp4 "Категоризируй" --json

# Multi-turn: задаём уточняющие вопросы
python3 qwen_bridge.py video.mp4 "Разбери" --save-context /tmp/ctx.json
python3 qwen_bridge.py video.mp4 "Подробнее про руки" --context /tmp/ctx.json

Про --fps: Qwen принимает видео как набор кадров. Больше кадров — больше токенов — больше денег. По умолчанию 2 FPS, этого хватает почти всегда. Для длинных видео ставишь 0.5 и платишь вчетверо меньше.

Ещё есть multi-turn. Первый запрос делает общий разбор, потом можно спрашивать дальше: «а что с освещением?», «какая камера?». Qwen отвечает, помня предыдущий контекст. Это удобно, когда не знаешь заранее, что именно искать в видео.

Как это выглядит на практике

Возвращаюсь к своим 29 видео. Я написал Claude примерно следующее:

У меня 29 видео в папке Kling_References. Рассортируй каждое по категориям анимации: Idle, Listening, Thinking, Talking, Greeting, AFK. Используй Qwen для анализа.

Claude (с подключённым плагином) сгенерировал батч-скрипт, который прогнал все 29 файлов через мост. Для каждого видео Qwen получал промпт вроде:

Analyze this character animation. Classify into ONE category:
- Idle (standing, breathing, subtle movement)
- Listening (nodding, attentive pose)
- Thinking (hand to chin, looking away)
- Talking (lip sync, gestures)
- Greeting (wave, bow, smile)
- AFK (looking at phone, yawning, stretching)

Return: category, confidence (1-5), brief description of movement.

Результат: 29 видео разложены по папкам, плюс отчёт с пробелами. Оказалось, что нет Listening с расслабленным кивком и Talking с жестами одной руки. Я бы это даже не заметил — когда смотришь тридцатое видео подряд, глаз замыливается.

Заняло минут десять, с учетом создания самого плагина.

Плагин, чтобы не объяснять каждый раз

Структура:

give-claude-eyes/
├── .claude-plugin/
│   └── plugin.json          # манифест
├── skills/
│   └── qwen-vision/
│       ├── SKILL.md          # когда и как использовать мост
│       ├── scripts/
│       │   └── qwen_bridge.py
│       └── references/
│           ├── batch-pattern.md   # шаблон для батч-обработки
│           └── prompt-tips.md     # эффективные промпты
├── commands/
│   ├── analyze-video.md      # /analyze-video
│   └── qwen-setup.md         # /qwen-setup
├── README.md
└── LICENSE

SKILL.md — инструкция для Claude. Там описано, на какие фразы реагировать («разбери видео», «что в этом клипе», «classify these videos»), как вызывать мост и что делать при ошибках. После установки плагина Claude сам понимает, когда вызывать Qwen. Не нужно ничего объяснять.

plugin.json — манифест:

{
  "name": "give-claude-eyes",
  "version": "0.1.0",
  "description": "Add native video and image understanding to Claude via Qwen Omni API",
  "author": { "name": "Kirill Brysenkov" },
  "repository": "https://github.com/kirillbrsnkv/give-claude-eyes",
  "license": "MIT"
}

Две слэш-команды: /analyze-video для явного анализа конкретного файла и /qwen-setup — мастер настройки, который проверяет Python, ставит dashscope и тестирует подключение.

Модели

По умолчанию qwen-omni-plus-latest. Переключается через --model или просто словами: «используй turbo, мне не нужно максимальное качество».

Как поставить

Claude Code:

claude plugin add kirillbrsnkv/give-claude-eyes

Cowork: скачать .plugin из релизов и перетащить в окно Cowork.

Потом нужен API-ключ:

Зарегистрироваться на Alibaba Model Studio (международный эндпоинт) или DashScope (Китай)
Создать ключ
Выставить переменную окружения:

export DASHSCOPE_API_KEY=sk-your-key-here

Проверить:

/qwen-setup

Всё. После этого радуемся что можно кормить Claude видео

Итого

Решение не идеальное, дает доп. косты на Qwen, но работает.
Если работаете с визуалом и нужно разбирать видео + весь рабочий процесс в Claude - пока что это самый рабочий костыль.

А там глядишь и Антропики прикрутят мультимодальность к своим фронтирным моделям.

Исходники: github.com/kirillbrsnkv/give-claude-eyes