Стартап в области генеративного ИИ Decart запустил MirageLSD — видеомодель на основе искусственного интеллекта, которая преобразует видео в реальном времени. Система призвана решить две серьёзные проблемы, связанные с существующими инструментами на основе ИИ для работы с видео: медленный рендеринг и быстрое снижение качества изображения с течением времени.

Видеомодели на основе ИИ часто работают медленно и, как правило, способны генерировать только короткие ролики длительностью от пяти до десяти секунд, после чего качество изображения начинает ухудшаться. MirageLSD использует другой подход. Вместо того чтобы генерировать целые видеопоследовательности, модель создаёт каждый кадр отдельно.
Система использует окно с последними кадрами, текущий видеовход и запрос пользователя для прогнозирования следующего кадра по мере воспроизведения потока. Каждый новый кадр сразу же используется на следующем этапе вычислений, поэтому модель может мгновенно реагировать на изменения в прямой трансляции. Такая настройка позволяет непрерывно преобразовывать видео в реальном времени со скоростью 20 кадров в секунду и разрешением 768 x 432, сохраняя при этом низкую задержку для интерактивных приложений.
Чтобы качество видео оставалось стабильным при длительных сеансах, Decart использует два метода обучения. Первый, называемый «принудительная диффузия», добавляет шум к каждому кадру по отдельности, обучая модель очищать изображения, не полагаясь на предыдущие кадры. Это помогает предотвратить накопление ошибок с течением времени.
Второй метод, «расширение истории», предполагает, что во время обучения модель сталкивается с искажёнными или ошибочными кадрами, поэтому она учится выявлять и исправлять повторяющиеся ошибки, а не просто пропускать их.
Компания Decart настроила MirageLSD специально для графических процессоров Nvidia Hopper, используя «оптимизацию с учётом архитектуры», чтобы отсечь менее важные части модели и повысить скорость и эффективность. Команда также применяет «дистилляцию ярлыков», обучая меньшие модели воспроизводить результаты более крупных. По их словам, этот процесс повышает производительность в 16 раз. В результате каждый кадр обрабатывается менее чем за 40 миллисекунд, а задержка остаётся достаточно низкой, чтобы большинство зрителей не заметили существенного отставания.

У MirageLSD есть некоторые ограничения. В настоящее время он обрабатывает только небольшое количество предыдущих кадров, поэтому при работе с более длинными видео может снижаться согласованность. Модель также с трудом справляется с серьёзными изменениями стиля и точным управлением отдельными объектами.
Mirage Platform запущена, в разработке новые функции
Компания Decart запустила платформу Mirage вместе с MirageLSD, веб-версия уже доступна, а мобильные приложения для iOS и Android находятся в разработке. Платформа предназначена для прямых трансляций, видеозвонков и игр. Компания Decart планирует регулярно выпускать обновления в течение лета, добавляя такие функции, как улучшенная согласованность лиц, голосовое управление и более точное управление объектами.
Это вторая модель искусственного интеллекта от Decart после их вирусного проекта Oasis в Minecraft. На создание MirageLSD ушло около шести месяцев. Другие системы, такие как StreamDiT, могут достигать аналогичной скорости — до 16 кадров в секунду — и также предлагают интерактивные возможности, но всё же отстают от топовых моделей, таких как Veo 3 от Google, когда дело касается качества изображения.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь.