
Что если создать стул или полку можно было бы так же просто, как попросить об этом друга? Команда из МИТ, Google Deepmind и Autodesk Research сделала серьёзный шаг к этой реальности. Они разработали систему, которая превращает текстовое описание в физический объект, используя генеративный ИИ и роботизированную сборку.
Классические системы автоматизированного проектирования (CAD) — мощный, но часто недоступный инструмент. Они требуют экспертизы, а их детализация может мешать быстрому экспериментированию. Новая система призвана сделать дизайн и прототипирование мгновенными и доступными даже для неспециалистов.
Процесс начинается с простого промпта, например: «Робот, сделай мне стул». Далее в дело вступают две ключевые модели:
Генератор 3D‑геометрии создаёт трёхмерный каркас объекта на основе текста.
Vision‑language model (VLM) выступает в роли «мозга и глаз» системы. Она анализирует полученную геометрию, рассуждает о функциях объекта (где сидеть, на что опираться) и решает, как именно разместить стандартные компоненты — структурные балки и панели.
«Существует множество способов разместить панели на объекте, но роботу нужно увидеть геометрию и понять её, чтобы принять решение. VLM, выступая как глаза и мозг робота, позволяет ему это делать», — поясняет ведущий автор работы, аспирант МИТ Алекс Кью.
Система не автономна — пользователь остаётся её соавтором. Можно уточнить промпт: скажем, после первого варианта стула добавить «Панели только на спинке, не на сиденье». Так подход адаптируется под личные предпочтения.
Когда дизайн утверждён, роботизированная система собирает объект из готовых многоразовых компонентов. Их можно разобрать и использовать снова для чего‑то нового, что принципиально снижает потенциальные отходы.
VLM умеет объяснять свои решения: например, почему панели нужны именно на сиденье и спинке. «Мы увидели, что модель в какой‑то степени понимает функциональные аспекты стула… Это не просто случайный выбор», — отмечает Кью.
Пока система использует два типа деталей и работает с относительно простыми формами. Но вектор развития очевиден: более сложные материалы (стекло, металл) и промпты, новые типы компонентов (шестерни, петли для функциональных механизмов), применение в архитектуре, аэрокосмической отрасли и в интерьере дома.
Подробности — в статье «Text‑to‑assembly: Robotic assembly using large multimodal models», представленной на конференции NeurIPS.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
