Как стать автором
Обновить

Apple представила Matrix3D — нейросеть для фотограмметрии

Время на прочтение1 мин
Количество просмотров4K

Исследователи Apple выпустили Matrix3D — универсальную нейросеть для фотограмметрии. С её помощью пользователи могут преобразовывать группы снимков предметов в детализированные 3D-модели. Компания опубликовала веса и подробно рассказала о реализации метода.

Matrix3D — унифицированная модель, которая выполняет сразу несколько задач: оценку положения камеры, генерацию ракурсов и прогнозирование глубины кадров. Всё это обеспечивает мультимодальный диффузионный трансформер. В итоге удаётся упростить конвейер, избавившись от связки нескольких моделей, и повысить точность генерации.

Пайплайн Matrix3D
Пайплайн Matrix3D

Нейросеть обучали с помощью маскирования (Masked Autoencoder, MAE): модели передают пары изображение-ракурс с частично скрытыми данными, а она пробует достроить недостающие элементы. Впоследствии это позволяет эффективно генерировать недостающие ракурсы и использовать для генерации данные с физических датчиков. Также метод обучения с маскированием помогает Matrix3D прогнозировать глубину объектов всего по трём кадрам.

Пайплайн обучения Matrix3D
Пайплайн обучения Matrix3D

Исследователи опубликовали код и веса модели. В репозитории есть инструкция по запуску Matrix3D. Разработчики отмечают, что протестировали нейросеть в Ubuntu 20.04 с PyTorch 2.4 и Python 3.10. Для запуска рекомендуют воссоздать среду со всеми зависимостями, но для некоторых потребуется CUDA.

Пример работы Matrix3D
Пример работы Matrix3D
Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+12
Комментарии18

Другие новости

Работа

Data Scientist
48 вакансий

Ближайшие события