4D – это тот же 3D, только с динамикой, то есть в движении. Почему это такой важный релиз, а не очередной ИИ-генератор игр? Потому что Genesis без потери точности и детализации работает в 10–80 раз быстрее существующих GPU-ускоренных физических симуляторов (Isaac Gym или MJX)! Именно такие движки сегодня используют, чтобы обучать роботов, и Genesis тоже предназначен именно для этого. Чтобы обучить одного агента ходить, в Genesis достаточно всего 26 секунд на одной видеокарте RTX 4090, а в реальном мире на это ушло бы 430,000 раз больше времени и куда больше ресурсов.
На низком уровне в Genesis работают SOTA солверы, такие как MPM, SPH, FEM и PBD. Это пока не ИИ, а просто методы численного решения уравнений, описывающих физические процессы. Например, MPM (Material Point Method) используется для моделирования сложных материалов, таких как песок, снег или почва, где важно учитывать переходы между твёрдым и жидким состояниями. SPH (Smoothed Particle Hydrodynamics) применяется для симуляции жидкостей, FEM (Finite Element Method) – для задач деформации твёрдых тел и мягких материалов, и так далее.
Эти методы составляют "фундамент" Genesis, и обеспечивают как раз ту самую высокую физическую реалистичность. Но сами по себе они не создают сценарии или задачи для обучения — это просто инструменты для расчёта.
Поэтому на следующем уровне в Genesis все это оборачивается в генеративную модель на основе ViT (Visual Transformer), которая превращает физический фундамент в полноценные симуляции для обучения ML-моделей. Модель генерирует полноценные среды, параметры физических объектов, сценарии взаимодействия, движения камер, траектории роботов, ревард-модели для обучения RL-агентов и даже политики управления, то есть базовые стратегии для роботов, которые можно затем дообучить или использовать как основу для дальнейших экспериментов.
А невероятная скорость Genesis достигается за счет GPU-параллелизации и глубокой оптимизации солверов. Например, ученые используют авто-гибернацию, чтобы автоматически отключать симуляцию для объектов, которые уже находятся в статичном или стабильном состоянии, и тем самым сильно уменьшают нагрузку на процессор.
И результаты действительно поражают: например, обратная кинематика для 10,000 манипуляторов Franka (это робот от компании Franka Emika, на нем стандартно ставят эксперименты исследователи) решается менее чем за 2 мс. А в задачах обучения одного Franka-манипулятора Genesis достигает скорости 43 миллиона кадров в секунду (43 millision FPS). Это означает, что симуляция работает в 430,000 раз быстрее, чем реальное время. Это революционный показатель.
Получается, что Genesis — это фактически очень мощный инструмент для синтеза точных с точки зрения физики данных, которые сложно или даже невозможно собрать в реальном мире. Это относится, например, к мягким роботам, моделировать поведение которых в реальном мире просто невероятно затратно, потому что их движения и взаимодействия с окружающей средой зависят от множества параметров (мягкость материалов, например). Кажется, с точки зрения прогресса это гораздо более крутой релиз, чем, например, SORA или Veo-2.
В числе контрибьюторов исследования – Nvidia, Стэнфорд, Пекинский университет, MIT, Мэрилэнд и многие другие. Код доступен здесь, документация – тут, а статью обещают выложить совсем скоро.
Если хотите больше таких новостей каждый день – загляните к нам в тг-канал Data Secrets. Мы – команда практикующих ML-инженеров, и каждый день мы первыми освещаем новинки, пишем разборы статей и делимся прикладными материалами. А еще наше большое сообщество всегда радо новым специалистам и энтузиастам, так что подписывайтесь!