OpenAI представила Point-E, который генерирует 3D-модели по текстовому описанию / Habr

OpenAI открыл исходный код системы машинного обучения Point-E, которая создаёт 3D-объекты по текстовым подсказкам. ИИ может генерировать 3D-модели за одну-две минуты на одном графическом процессоре Nvidia V100.

Point-E не создаёт 3D-объекты в традиционном понимании, а генерирует облака точек или дискретные наборы точек данных в пространстве, которые представляют трёхмерную форму. Облака точек легче синтезировать с вычислительной точки зрения, но они не охватывают детали объекта.

Чтобы обойти это ограничение, команда Point-E обучила дополнительную систему ИИ для преобразования облаков точек Point-E в сетки (наборы вершин, рёбер и граней, которые определяют объект). Однако иногда модель может пропускать определённые детали, что приводит к искажениям.

Сама Point-E состоит из двух моделей: преобразования текста в изображение и преобразования изображения в 3D. Модель преобразования текста в изображение, аналогичная системам генеративного искусства, таким как DALL-E 2 и Stable Diffusion, была обучена на помеченных картинках, чтобы понять ассоциации между словами и визуальными понятиями. Модель преобразования изображения в 3D обучали на наборе изображений, соединённых метками с объёмными объектами.

При получении текстовой подсказки Point-E генерирует синтетический визуализированный объект, который подаётся на устройство преобразования, и оно создаёт облако точек.

По словам исследователей OpenAI, после обучения моделей на наборе данных из «нескольких миллионов» 3D-объектов и связанных с ними метаданных Point-E может создавать цветные облака точек, которые часто соответствуют текстовым подсказкам.

Исследователи отмечают, что облака точек Point-E можно использовать при изготовлении объектов для реального мира, например, с помощью 3D-печати, а также в рабочих процессах разработки игр и анимации.

Ранее в этом году Google выпустила DreamFusion, расширенную версию Dream Fields, генеративной 3D-системы, которую компания представила еще в 2021 году. В отличие от Dream Fields, DreamFusion не требует предварительного обучения и может создавать 3D-представления объектов без 3D-данных.

Вопрос в том, какие споры об интеллектуальной собственности могут возникнуть со временем. Существует большой рынок 3D-моделей с несколькими онлайн-рынками, включая CGStudio и CreativeMarket, которые позволяют художникам продавать созданный ими контент. Если Point-E завоюет популярность, а её модели появятся на рынке, художники могут выступить против.

Пока сами разработчики называют Point-E «отправной точкой», которая вдохновит на «дальнейшую работу» в области синтеза текста в 3D.

Ранее OpenAI открыла доступ к API DALL-E для разработчиков приложений в общедоступной бета-версии. Компания уже сотрудничает с несколькими первыми клиентами, которые встроили DALL-E в свои приложения и продукты. Так, Microsoft использует нейросеть в приложении для графического дизайна Designer. Также компания интегрирует DALL-E в свои браузеры Bing и Edge в рамках расширения Image Creator, позволяя пользователям создавать изображения, если они не могут найти искомые картинки в поисковике.

OpenAI представила Point-E, который генерирует 3D-модели по текстовому описанию

{{ titleHtml }}

{{ titleHtml }}