Happy Horse 1.0: нейросеть которая захватила ТОП рейтинга AI-видео и почему это произошло / Хабр

Без пресс-релиза, без технического блога, без корпоративного бренда — текст-в-видео модель под именем HappyHorse-1.0 тихо заняла первое место на Artificial Analysis Video Arena, обогнав Seedance 2.0. Разбираем: кто это сделал, как устроена архитектура и почему этот момент важен для всего опен-сорс видео-AI.

Нейросеть Happy Horse уже доступна на Study AI для тестирования и генерации видео. Также в прошлой статей мы сгенерировали видео для наглядного результат по одинаковому промпту в популярных нейросетях HappyHorse 1.0, Veo 3.1, Kling 3.0 и Runway.

Рейтинг Artificial Analysis Video Arena строится не на технических бенчмарках, а на Elo-баллах из слепых тестов реальных пользователей — то есть на субъективных предпочтениях после просмотра. Это делает результат труднее оспариваемым, чем обычные таблицы метрик. И именно поэтому вопрос «кто вообще это сделал?» стало невозможно игнорировать.

Техсообщество в X устроило настоящий детектив. Улики собирались методично.

Улика 1: порядок языков на сайте

На официальном сайте мандаринский и кантонский языки стоят выше английского. Для продукта, нацеленного на глобальную аудиторию, это нетипично — американская команда не поставила бы английский на второе место. Вывод: команда из Китая.

Улика 2: год Лошади

2026 — год Лошади по китайскому лунному календарю. «HappyHorse» — это довольно очевидная отсылка. В начале года аналогичный трюк уже использовала «Pony Alpha». Круг подозреваемых быстро расширился: основатели Tencent и Alibaba носят фамилию Ма («лошадь» по-китайски); часть сообщества ставила на Xiaomi или DeepSeek.

Улика 3: совпадение метрик до последней цифры

Пользователь X по имени Vigo Zhao сравнил публичные бенчмарки HappyHorse-1.0 с известными моделями и нашёл идеальное совпадение — daVinci-MagiHuman, опен-сорс модель, выложенная на GitHub в марте 2026 года.

Метрика	HappyHorse-1.0	daVinci-MagiHuman	Совпадение
Визуальное качество	4.80	4.80	✓ точное
Соответствие тексту	4.18	4.18	✓ точное
Физическая консистентность	4.52	4.52	✓ точное
WER lip-sync	14.60%	14.60%	✓ точное
Архитектура	Single-stream Transformer	Single-stream Transformer	✓ совпадает
Языки lip-sync	EN, ZH, CA, JP, KO, DE, FR	EN, ZH, CA, JP, KO, DE, FR	✓ совпадает

Наиболее признанная версия в техсообществе: HappyHorse — это итеративная версия от Sand.ai, одного из соавторов daVinci-MagiHuman, оптимизированная под реальные пользовательские предпочтения. Цель — проверить потолок модели в слепых тестах и подготовить почву для коммерциализации.

Кто создал daVinci-MagiHuman?

Модель опен-сорснута 23 марта 2026 года как совместный проект двух молодых команд. Первая — лаборатория GAIR (Generative AI Research) при Шанхайском институте инноваций, под руководством учёного Лю Пэнфэя. Вторая — пекинская компания Sand.ai (Sandai Technology), основанная Цао Юэ с академическим бэкграундом; её специализация — авторегрессионные world models.

23 марта 2026

daVinci-MagiHuman опубликована на GitHub командами GAIR + Sand.ai

нач. апреля 2026

HappyHorse-1.0 появляется на Artificial Analysis Video Arena без каких-либо анонсов

~7–8 апреля 2026

HappyHorse занимает #1, опережая Seedance 2.0 по Elo. Техсообщество начинает расследование

8–10 апреля 2026

Vigo Zhao публикует сравнение метрик, совпадение подтверждается. Версия о Sand.ai признаётся наиболее вероятной

Часть 2. Архитектура: что внутри

Главное техническое отличие HappyHorse / daVinci-MagiHuman от конкурентов — unified single-stream Transformer: текст, видео и аудио токены помещаются в одну последовательность и моделируются совместно. В опен-сорс сообществе до этого никто не делал настоящего аудио-видео joint pre-training с нуля. Большинство моделей соединяют отдельные модальности постфактум.

Ключевые технические особенности

Компонент	Как работает	Почему важно
Joint audio-video	Аудио- и видеотокены в одной последовательности трансформера	Звук и картинка планируются совместно — нет проблемы «синхронизации после»
Lip-sync	Выравнивание речь↔мимика встроено в архитектуру на уровне фонем	WER 14.60%, 7 языков — видимо лучший показатель среди публично известных моделей
Latent super-res	5 дополнительных шагов диффузии в латентном пространстве до декодирования	1080p — не ресайз, а восстановление деталей; острее текстуры и лица
Дистилляция	Быстрая версия модели для итерации	Заметно короче время генерации → удобнее перебирать промпты
Prompt fidelity	Сложные описания удерживаются лучше, чем у конкурентов	Можно не упрощать промпт заранее

Часть 3. Почему #1 — и в чём подвох

Почему так быстро вышло на первое место?

daVinci-MagiHuman открылась 23 марта, а уже через две недели HappyHorse обогнала Seedance 2.0 по Elo. Как?

Elo-система — это накопление пользовательских предпочтений в слепых сравнениях. Если немного улучшить чувствительные к восприятию вещи — стабильность мимики, выравнивание аудио и видео, визуальная приятность кадра — выбор в слепом тесте становится более вероятным. Потолок модели не меняется, но «оценочная производительность» полируется.

В слепых тестах Artificial Analysis портретный контент и озвучка составляют более 60% выборки. daVinci-MagiHuman изначально ориентирована на портретный рендеринг — это даёт ей системное преимущество именно в этом распределении тестов. Если тесты смещены в сторону портретов, портретная модель будет выигрывать вне зависимости от реальной универсальности.

Что говорят скептики

Блогер @JACK's AI World сразу задеплоил daVinci-MagiHuman и провёл реальное тестирование. Выводы:

Проблема	Детали
Требования к железу	Нужен H100. Обычные потребительские карты не тянут
Мультиперсонажные сцены	При появлении нескольких людей или сложного фона качество падает — это не баг настроек, а следствие фокуса на портретах
Длинные генерации	При длительности больше ~10 секунд картинка начинает «разъезжаться»
Full-HD без плагина	Для высокого разрешения нужен внешний super-res плагин
Итог по юзабилити	Уступает LTX 2.3 по комплексной применимости; для повседневного использования нужна сначала количизация от сообщества

На X сообщество разделилось: скептики считают, что в деталях персонажей и динамической связности HappyHorse-1.0 всё ещё уступает Seedance 2.0. Поклонники возражают — и надеются, что модель решит боль «консистентности картинки между кадрами в мульти-шот сиквенсах», которую мейнстримные модели до сих пор не решили.

Часть 4. Сравнение с конкурентами

Место	Модель	Сильная сторона
№1	HappyHorse 1.0	Портреты + интегрированное аудио
№2	Seedance 2.0	Мультиассеты, сцены
№3	Kling 3.0	4K, мульти-персонажи
№4	Veo 3.1	Физика, длинные сцены
№5	Sora 2 Pro	Кинематографика, окружение

* Условная визуализация на основе данных Artificial Analysis Video Arena

HappyHorse vs Seedance 2.0

Happy Horse лучше

Портретный реализм и мимика
Аудио в одном transformer-потоке
Работает по тексту без референсов

Seedance 2.0 лучше

До 9 изображений + 3 видео в одной генерации
Консистентность персонажей между сценами
Клонирование движения

HappyHorse vs Kling 3.0

HappyHorse лучше

Фонемный lip-sync, 7 языков
Мимика для одного персонажа
Архитектурно интегрированный звук

Kling 3.0 лучше

Мульти-персонажные сцены
Нативное 4K
Мульти-промпт сторителлинг

HappyHorse vs Veo 3.1

HappyHorse лучше

Портрет + диалог
Аудио в той же последовательности
Точность по одному персонажу

Veo 3.1 лучше

Физически сложные сцены
Расширение до 30 секунд
Мультиреференсная композиция

Кейсы применения

Цифровые люди и виртуальные ведущие
Лучший сценарий: один персонаж, диалог, реализм мимики
Мультиязычный маркетинг
Spokesperson-видео с lip-sync на 7 языков без пересъёмки
Обучающий контент
Объясняющие видео с синхронизированной речью
E-commerce
Продуктовые видео с консистентным брендом
Прототипирование
Быстрые черновики сцен до полного продакшна

Примеры промптов

Модель хорошо реагирует на конкретику: субъект, действие, тон, аудио. Несколько рабочих примеров под сильные стороны. HappyHorse:

Женщина из Кореи, которой чуть больше 30 лет, сидит за деревянным столиком в кафе и говорит на корейском языке на камеру. Тихий фоновый шум кафе. Небольшая глубина резкости, теплое вольфрамовое освещение, крупный план.

Портретное видео , взрослая девушка 20+ на фоне моря, лёгкий ветер, волосы немного развеваются, мягкая естественная улыбка, утренний свет, пастельные цвета, кинематографичный реализм, спокойная атмосфера, slow motion.

Часть 5. Почему это важнее, чем строчка в рейтинге

Исторически между опен-сорс и закрытыми видеомоделями существовал очевидный разрыв в качестве. В сценариях, где результат нужно сдавать клиенту, опен-сорс генерация долго не могла перейти порог от «работает» до «сдаётся». На этом разрыве стояла вся ценовая политика Kling и Seedance.

Теперь впервые продукт на базе опен-сорс модели напрямую сравнялся с ведущими закрытыми конкурентами в слепых пользовательских тестах. Сколько бы ни было оптимизации под сценарий оценки — для закрытых вендоров это сигнал, который нельзя игнорировать.

Для разработчиков практическое значение точки перелома конкретно: в вертикальных нишах (портреты, цифровые люди, виртуальные ведущие) как только качество опен-сорс основы достигает порога «сдаётся», структура затрат на деплой меняется кардинально. Это не только про сжатие стоимости API-вызовов. Это про полный контроль над данными, моделью и инференсом, а также гибкость в кастомизации и соответствии требованиям приватности, которую закрытые решения не могут предоставить.

HappyHorse-1.0 не перевернёт рыночные позиции Seedance 2.0 или Kling 3.0 в краткосрочной перспективе. Но как только укрепится восприятие, что опен-сорс по качеству может равняться с закрытыми моделями, последующая оптимизация квантизации, вертикальный файнтюнинг и ускорение инференса будут итерироваться сообществом с куда большей скоростью, чем закрытые продукты способны поддерживать.

Итог. HappyHorse 1.0 — это, по всей видимости, Sand.ai-оптимизация поверх daVinci-MagiHuman, открытой 23 марта 2026. Модель с уникальной архитектурой (joint audio-video трансформер, 15B параметров, честный 1080p через latent super-res, фонемный lip-sync на 7 языков) заняла #1 в реальных пользовательских тестах. При этом она всё ещё требует H100, плохо работает с мульти-персонажными сценами и длинными сегментами. Победа в лидерборде частично объясняется смещением тестовой выборки в сторону портретов — именно туда, где модель изначально заточена.

Happy Horse 1.0: нейросеть которая захватила ТОП рейтинга AI-видео и почему это произошло