Без пресс-релиза, без технического блога, без корпоративного бренда — текст-в-видео модель под именем HappyHorse-1.0 тихо заняла первое место на Artificial Analysis Video Arena, обогнав Seedance 2.0. Разбираем: кто это сделал, как устроена архитектура и почему этот момент важен для всего опен-сорс видео-AI.
Нейросеть Happy Horse уже доступна на Study AI для тестирования и генерации видео. Также в прошлой статей мы сгенерировали видео для наглядного результат по одинаковому промпту в популярных нейросетях HappyHorse 1.0, Veo 3.1, Kling 3.0 и Runway.

Рейтинг Artificial Analysis Video Arena строится не на технических бенчмарках, а на Elo-баллах из слепых тестов реальных пользователей — то есть на субъективных предпочтениях после просмотра. Это делает результат труднее оспариваемым, чем обычные таблицы метрик. И именно поэтому вопрос «кто вообще это сделал?» стало невозможно игнорировать.
Техсообщество в X устроило настоящий детектив. Улики собирались методично.
Улика 1: порядок языков на сайте
На официальном сайте мандаринский и кантонский языки стоят выше английского. Для продукта, нацеленного на глобальную аудиторию, это нетипично — американская команда не поставила бы английский на второе место. Вывод: команда из Китая.
Улика 2: год Лошади
2026 — год Лошади по китайскому лунному календарю. «HappyHorse» — это довольно очевидная отсылка. В начале года аналогичный трюк уже использовала «Pony Alpha». Круг подозреваемых быстро расширился: основатели Tencent и Alibaba носят фамилию Ма («лошадь» по-китайски); часть сообщества ставила на Xiaomi или DeepSeek.
Улика 3: совпадение метрик до последней цифры
Пользователь X по имени Vigo Zhao сравнил публичные бенчмарки HappyHorse-1.0 с известными моделями и нашёл идеальное совпадение — daVinci-MagiHuman, опен-сорс модель, выложенная на GitHub в марте 2026 года.
Метрика | HappyHorse-1.0 | daVinci-MagiHuman | Совпадение |
|---|---|---|---|
Визуальное качество | 4.80 | 4.80 | ✓ точное |
Соответствие тексту | 4.18 | 4.18 | ✓ точное |
Физическая консистентность | 4.52 | 4.52 | ✓ точное |
WER lip-sync | 14.60% | 14.60% | ✓ точное |
Архитектура | Single-stream Transformer | Single-stream Transformer | ✓ совпадает |
Языки lip-sync | EN, ZH, CA, JP, KO, DE, FR | EN, ZH, CA, JP, KO, DE, FR | ✓ совпадает |
Наиболее признанная версия в техсообществе: HappyHorse — это итеративная версия от Sand.ai, одного из соавторов daVinci-MagiHuman, оптимизированная под реальные пользовательские предпочтения. Цель — проверить потолок модели в слепых тестах и подготовить почву для коммерциализации.
Кто создал daVinci-MagiHuman?
Модель опен-сорснута 23 марта 2026 года как совместный проект двух молодых команд. Первая — лаборатория GAIR (Generative AI Research) при Шанхайском институте инноваций, под руководством учёного Лю Пэнфэя. Вторая — пекинская компания Sand.ai (Sandai Technology), основанная Цао Юэ с академическим бэкграундом; её специализация — авторегрессионные world models.
23 марта 2026
daVinci-MagiHuman опубликована на GitHub командами GAIR + Sand.ai
нач. апреля 2026
HappyHorse-1.0 появляется на Artificial Analysis Video Arena без каких-либо анонсов
~7–8 апреля 2026
HappyHorse занимает #1, опережая Seedance 2.0 по Elo. Техсообщество начинает расследование
8–10 апреля 2026
Vigo Zhao публикует сравнение метрик, совпадение подтверждается. Версия о Sand.ai признаётся наиболее вероятной
Часть 2. Архитектура: что внутри
Главное техническое отличие HappyHorse / daVinci-MagiHuman от конкурентов — unified single-stream Transformer: текст, видео и аудио токены помещаются в одну последовательность и моделируются совместно. В опен-сорс сообществе до этого никто не делал настоящего аудио-видео joint pre-training с нуля. Большинство моделей соединяют отдельные модальности постфактум.
Ключевые технические особенности
Компонент | Как работает | Почему важно |
|---|---|---|
Joint audio-video | Аудио- и видеотокены в одной последовательности трансформера | Звук и картинка планируются совместно — нет проблемы «синхронизации после» |
Lip-sync | Выравнивание речь↔мимика встроено в архитектуру на уровне фонем | WER 14.60%, 7 языков — видимо лучший показатель среди публично известных моделей |
Latent super-res | 5 дополнительных шагов диффузии в латентном пространстве до декодирования | 1080p — не ресайз, а восстановление деталей; острее текстуры и лица |
Дистилляция | Быстрая версия модели для итерации | Заметно короче время генерации → удобнее перебирать промпты |
Prompt fidelity | Сложные описания удерживаются лучше, чем у конкурентов | Можно не упрощать промпт заранее |
Часть 3. Почему #1 — и в чём подвох
Почему так быстро вышло на первое место?
daVinci-MagiHuman открылась 23 марта, а уже через две недели HappyHorse обогнала Seedance 2.0 по Elo. Как?
Elo-система — это накопление пользовательских предпочтений в слепых сравнениях. Если немного улучшить чувствительные к восприятию вещи — стабильность мимики, выравнивание аудио и видео, визуальная приятность кадра — выбор в слепом тесте становится более вероятным. Потолок модели не меняется, но «оценочная производительность» полируется.
В слепых тестах Artificial Analysis портретный контент и озвучка составляют более 60% выборки. daVinci-MagiHuman изначально ориентирована на портретный рендеринг — это даёт ей системное преимущество именно в этом распределении тестов. Если тесты смещены в сторону портретов, портретная модель будет выигрывать вне зависимости от реальной универсальности.
Что говорят скептики
Блогер @JACK's AI World сразу задеплоил daVinci-MagiHuman и провёл реальное тестирование. Выводы:
Проблема | Детали |
|---|---|
Требования к железу | Нужен H100. Обычные потребительские карты не тянут |
Мультиперсонажные сцены | При появлении нескольких людей или сложного фона качество падает — это не баг настроек, а следствие фокуса на портретах |
Длинные генерации | При длительности больше ~10 секунд картинка начинает «разъезжаться» |
Full-HD без плагина | Для высокого разрешения нужен внешний super-res плагин |
Итог по юзабилити | Уступает LTX 2.3 по комплексной применимости; для повседневного использования нужна сначала количизация от сообщества |
На X сообщество разделилось: скептики считают, что в деталях персонажей и динамической связности HappyHorse-1.0 всё ещё уступает Seedance 2.0. Поклонники возражают — и надеются, что модель решит боль «консистентности картинки между кадрами в мульти-шот сиквенсах», которую мейнстримные модели до сих пор не решили.
Часть 4. Сравнение с конкурентами
Место | Модель | Сильная сторона |
|---|---|---|
№1 | HappyHorse 1.0 | Портреты + интегрированное аудио |
№2 | Seedance 2.0 | Мультиассеты, сцены |
№3 | Kling 3.0 | 4K, мульти-персонажи |
№4 | Veo 3.1 | Физика, длинные сцены |
№5 | Sora 2 Pro | Кинематографика, окружение |
* Условная визуализация на основе данных Artificial Analysis Video Arena
HappyHorse vs Seedance 2.0
Happy Horse лучше
Портретный реализм и мимика
Аудио в одном transformer-потоке
Работает по тексту без референсов
Seedance 2.0 лучше
До 9 изображений + 3 видео в одной генерации
Консистентность персонажей между сценами
Клонирование движения
HappyHorse vs Kling 3.0
HappyHorse лучше
Фонемный lip-sync, 7 языков
Мимика для одного персонажа
Архитектурно интегрированный звук
Kling 3.0 лучше
Мульти-персонажные сцены
Нативное 4K
Мульти-промпт сторителлинг
HappyHorse vs Veo 3.1
HappyHorse лучше
Портрет + диалог
Аудио в той же последовательности
Точность по одному персонажу
Veo 3.1 лучше
Физически сложные сцены
Расширение до 30 секунд
Мультиреференсная композиция
Кейсы применения
Цифровые люди и виртуальные ведущие
Лучший сценарий: один персонаж, диалог, реализм мимики
Мультиязычный маркетинг
Spokesperson-видео с lip-sync на 7 языков без пересъёмки
Обучающий контент
Объясняющие видео с синхронизированной речью
E-commerce
Продуктовые видео с консистентным брендом
Прототипирование
Быстрые черновики сцен до полного продакшна
Примеры промптов
Модель хорошо реагирует на конкретику: субъект, действие, тон, аудио. Несколько рабочих примеров под сильные стороны. HappyHorse:
Женщина из Кореи, которой чуть больше 30 лет, сидит за деревянным столиком в кафе и говорит на корейском языке на камеру. Тихий фоновый шум кафе. Небольшая глубина резкости, теплое вольфрамовое освещение, крупный план.
Портретное видео , взрослая девушка 20+ на фоне моря, лёгкий ветер, волосы немного развеваются, мягкая естественная улыбка, утренний свет, пастельные цвета, кинематографичный реализм, спокойная атмосфера, slow motion.
Часть 5. Почему это важнее, чем строчка в рейтинге
Исторически между опен-сорс и закрытыми видеомоделями существовал очевидный разрыв в качестве. В сценариях, где результат нужно сдавать клиенту, опен-сорс генерация долго не могла перейти порог от «работает» до «сдаётся». На этом разрыве стояла вся ценовая политика Kling и Seedance.
Теперь впервые продукт на базе опен-сорс модели напрямую сравнялся с ведущими закрытыми конкурентами в слепых пользовательских тестах. Сколько бы ни было оптимизации под сценарий оценки — для закрытых вендоров это сигнал, который нельзя игнорировать.
Для разработчиков практическое значение точки перелома конкретно: в вертикальных нишах (портреты, цифровые люди, виртуальные ведущие) как только качество опен-сорс основы достигает порога «сдаётся», структура затрат на деплой меняется кардинально. Это не только про сжатие стоимости API-вызовов. Это про полный контроль над данными, моделью и инференсом, а также гибкость в кастомизации и соответствии требованиям приватности, которую закрытые решения не могут предоставить.
HappyHorse-1.0 не перевернёт рыночные позиции Seedance 2.0 или Kling 3.0 в краткосрочной перспективе. Но как только укрепится восприятие, что опен-сорс по качеству может равняться с закрытыми моделями, последующая оптимизация квантизации, вертикальный файнтюнинг и ускорение инференса будут итерироваться сообществом с куда большей скоростью, чем закрытые продукты способны поддерживать.
Итог. HappyHorse 1.0 — это, по всей видимости, Sand.ai-оптимизация поверх daVinci-MagiHuman, открытой 23 марта 2026. Модель с уникальной архитектурой (joint audio-video трансформер, 15B параметров, честный 1080p через latent super-res, фонемный lip-sync на 7 языков) заняла #1 в реальных пользовательских тестах. При этом она всё ещё требует H100, плохо работает с мульти-персонажными сценами и длинными сегментами. Победа в лидерборде частично объясняется смещением тестовой выборки в сторону портретов — именно туда, где модель изначально заточена.
