Бывший техлид Kling собрал в Alibaba видеомодель, которая порвала лидерборд / Хабр

Видеомодель HappyHorse-1.0, которую несколько дней назад обнаружили на анонимной видео-арене Artificial Analysis, возглавила лидерборд в категории генерации видео по тексту без аудио с рейтингом Elo 1357 — обойдя прежнего лидера Seedance 2.0 от ByteDance на 84 пункта. В анимации картинки (image-to-video) без звука HappyHorse тоже на первом месте с рейтингом Elo 1402. В категориях со звуком модель держит второе место в text-to-video (1215 против 1220 у Seedance 2.0) и первое — в image-to-video (1160 против 1158).

Разрыв в 84 пункта Elo в ключевой категории — редкая картина: обычно топ-модели видеоарены укладываются в 10–20 пунктов друг от друга. По правилам рейтинга это означает, что HappyHorse выигрывает около 62% прямых сравнений. Рейтинг Artificial Analysis строится исключительно на слепых пользовательских голосах — человек видит два ролика по одному и тому же промпту, не зная, какая модель их сделала, и выбирает понравившийся. Именно это делает результат сложным для оспаривания: параметры и технические отчеты в формуле не участвуют.

Позднее в сети появился сайт модели: HappyHorse-1.0 построена в подразделении Future Life Lab при Taotian Group — части Alibaba, отвечающей за алгоритмы электронной коммерции. Лабораторию возглавляет Чжан Ди — бывший вице-президент Kuaishou и технический лидер направления Kling AI, один из ключевых людей в китайской видеогенерации. В конце 2025 года он перешел в Taotian, чтобы возглавить новую структуру, и HappyHorse-1.0 стала ее первым публичным результатом. Для Alibaba это означает второе параллельное видео-направление: классическое семейство WAN развивает Tongyi Lab, а команда Чжан Ди работает внутри e-commerce-вертикали и уже обогнала в тесте и свой же WAN 2.6, и главного конкурента ByteDance.

По описанию на сайте, HappyHorse-1.0 — это модель на 15 миллиардов параметров с единым 40-слойным трансформером, где текстовые токены, скрытое представление референс-картинки, видео и аудио денойзятся в одной общей последовательности без перекрестного внимания (cross-attention). Пятисекундный клип в разрешении 256p рендерится примерно за 2 секунды на H100, 1080p — за 38 секунд. Команда обещает выложить в опенсорс базовую модель, дистиллят, модуль повышения разрешения и код инференса; ссылки на GitHub и Model Hub пока помечены как "скоро". Если обещание по опенсорсу будет выполнено, HappyHorse-1.0 станет первой моделью с открытыми весами, напрямую обошедшей закрытые коммерческие системы в слепом пользовательском тесте на видео.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.