Claude слепой. К сожалению ни одна модель Антропиков не работает напрямую с видео.
Да, можно нарезать хоть на каждый кадр и скормить ему, но это не то. Контекст движения теряется, а без него это просто разбор кучи кадров на составляющие и попытка собрать контекст воедино.
Для меня как для визуального артиста это большая боль, потому что часто хочется отправить видео-рефы и попросить разобрать движение камеры, персонажа, дизайн в конце концов.
И вот конкретная задача - 29 сгенерированных видео-референсов анимации персонажа лежат в папке проекта, надо их разобрать по категориям и описать каждое движение.
Вручную мне заниматься этим, конечно же, лень. Час-полтора времени на нудную задачу.
Тогда я вспомнил про Qwen Omni, которым уже пользуюсь для создания Цифрового риалтайм персонажа-ассистента. И подумал, а почему бы не подружить их.
Идея
Claude отлично умеет запускать Python, парсить текст и принимать решения на основе результата. Отсюда идея моста: Claude кидает видео в Qwen, получает текстовый разбор и дальше работает с ним как с обычным контекстом.
Пользователь → Claude → qwen_bridge.py → Qwen Omni API → Claude → Пользователь "разбери видео" (смотрит) "вот что я увидел"
Мост: один файл, одна зависимость
Весь мост — qwen_bridge.py, 226 строк. Единственная зависимость — dashscope, официальный SDK от Alibaba. Python 3.9+, работает на Mac, Linux, Windows.
Логика простая: берёт путь к файлу и промпт, определяет тип (видео или картинка), конвертирует путь в file URI, отправляет в Qwen через DashScope API, возвращает текст. Ничего хитрого.
# Базовый вызов python3 qwen_bridge.py video.mp4 "Опиши движение персонажа" # Экономный режим для длинных видео python3 qwen_bridge.py video.mp4 "Общий анализ" --fps 1 # JSON-вывод для парсинга python3 qwen_bridge.py video.mp4 "Категоризируй" --json # Multi-turn: задаём уточняющие вопросы python3 qwen_bridge.py video.mp4 "Разбери" --save-context /tmp/ctx.json python3 qwen_bridge.py video.mp4 "Подробнее про руки" --context /tmp/ctx.json
Про --fps: Qwen принимает видео как набор кадров. Больше кадров — больше токенов — больше денег. По умолчанию 2 FPS, этого хватает почти всегда. Для длинных видео ставишь 0.5 и платишь вчетверо меньше.
Ещё есть multi-turn. Первый запрос делает общий разбор, потом можно спрашивать дальше: «а что с освещением?», «какая камера?». Qwen отвечает, помня предыдущий контекст. Это удобно, когда не знаешь заранее, что именно искать в видео.
Как это выглядит на практике
Возвращаюсь к своим 29 видео. Я написал Claude примерно следующее:
У меня 29 видео в папке Kling_References. Рассортируй каждое по категориям анимации: Idle, Listening, Thinking, Talking, Greeting, AFK. Используй Qwen для анализа.
Claude (с подключённым плагином) сгенерировал батч-скрипт, который прогнал все 29 файлов через мост. Для каждого видео Qwen получал промпт вроде:
Analyze this character animation. Classify into ONE category: - Idle (standing, breathing, subtle movement) - Listening (nodding, attentive pose) - Thinking (hand to chin, looking away) - Talking (lip sync, gestures) - Greeting (wave, bow, smile) - AFK (looking at phone, yawning, stretching) Return: category, confidence (1-5), brief description of movement.
Результат: 29 видео разложены по папкам, плюс отчёт с пробелами. Оказалось, что нет Listening с расслабленным кивком и Talking с жестами одной руки. Я бы это даже не заметил — когда смотришь тридцатое видео подряд, глаз замыливается.
Заняло минут десять, с учетом создания самого плагина.
Плагин, чтобы не объяснять каждый раз
Структура:
give-claude-eyes/ ├── .claude-plugin/ │ └── plugin.json # манифест ├── skills/ │ └── qwen-vision/ │ ├── SKILL.md # когда и как использовать мост │ ├── scripts/ │ │ └── qwen_bridge.py │ └── references/ │ ├── batch-pattern.md # шаблон для батч-обработки │ └── prompt-tips.md # эффективные промпты ├── commands/ │ ├── analyze-video.md # /analyze-video │ └── qwen-setup.md # /qwen-setup ├── README.md └── LICENSE
SKILL.md — инструкция для Claude. Там описано, на какие фразы реагировать («разбери видео», «что в этом клипе», «classify these videos»), как вызывать мост и что делать при ошибках. После установки плагина Claude сам понимает, когда вызывать Qwen. Не нужно ничего объяснять.
plugin.json — манифест:
{ "name": "give-claude-eyes", "version": "0.1.0", "description": "Add native video and image understanding to Claude via Qwen Omni API", "author": { "name": "Kirill Brysenkov" }, "repository": "https://github.com/kirillbrsnkv/give-claude-eyes", "license": "MIT" }
Две слэш-команды: /analyze-video для явного анализа конкретного файла и /qwen-setup — мастер настройки, который проверяет Python, ставит dashscope и тестирует подключение.
Модели
По умолчанию qwen-omni-plus-latest. Переключается через --model или просто словами: «используй turbo, мне не нужно максимальное качество».
Как поставить
Claude Code:
claude plugin add kirillbrsnkv/give-claude-eyes
Cowork: скачать .plugin из релизов и перетащить в окно Cowork.
Потом нужен API-ключ:
Зарегистрироваться на Alibaba Model Studio (международный эндпоинт) или DashScope (Китай)
Создать ключ
Выставить переменную окружения:
export DASHSCOPE_API_KEY=sk-your-key-here
Проверить:
/qwen-setup
Всё. После этого радуемся что можно кормить Claude видео
Итого
Решение не идеальное, дает доп. косты на Qwen, но работает.
Если работаете с визуалом и нужно разбирать видео + весь рабочий процесс в Claude - пока что это самый рабочий костыль.
А там глядишь и Антропики прикрутят мультимодальность к своим фронтирным моделям.
Исходники: github.com/kirillbrsnkv/give-claude-eyes
