Nvidia создала нейросеть, которая преобразует двухмерные объекты в трехмерные

    image

    Nvidia создала AI-систему DIB-R (differentiable interpolation-based renderer), которая построена на основе ML-фреймворка PyTorch. Система способна преобразовывать двухмерные изображения в трехмерные объекты.

    DIB-R обрабатывает картинку, а затем преобразует ее в высокоточную 3D-модель. Учитываются формы, текстура, цвета и освещение объекта. При этом задействована архитектура кодера-декодера, типа нейронной сети, которая преобразует входные данные в вектор, используемый для прогнозирования конкретной информации.

    Вся работа занимает менее чем 100 миллисекунд.

    Однако на тренировку самой системы уходит двое суток на одном GPU Nvidia V100.По мнению разработчиков, при использовании GPU этот процесс может растянуться на недели.

    AI-системе показали несколько датасетов с изображениями птиц. DIB-R смогла создать качественные модели по одной 2D-картинке.

    image

    Система «видит» двухмерное изображение и делает выводы на основе трехмерного «понимания» мира. Это похоже на то, как люди переводят двухмерный видимый объект в трехмерный мысленный образ.

    image

    В Nvidia полагают, что система поможет автономным роботам с восприятием глубины и повысит их точность и безопасность. Также она улучшит ориентацию на местности и умение манипулировать предметами. Фреймворк DIB-R интегрирован в разработанную Nvidia PyTorch-библиотеку Kaolin.

    Санья Фидлер, директор AI в Nvidia, заявила: «Представьте, что вы можете просто сделать фотографию, и у вас появится 3D-модель, а это значит, что вы можете теперь смотреть на ту сцену, где сделали снимок со всех видов точек обзора… Такие инструменты, как Google Maps, могут стать более захватывающими, чем когда-либо. И, возможно, креативщики, более опытные в фотографии или живописи, чем в кодировании и разработке, могут оставить всю тяжелую разработку для машин».

    Ранее Google презентовала «объяснимый» ИИ (Explainable AI). Его алгоритм расширен для улучшения интерпретируемости пользователями с помощью специальных модулей-пояснений. Пояснения количественно определяют вклад каждого элемента данных в выходные данные модели машинного обучения. Используя эти модули можно понять, почему модель приняла определенные решения, также эту информацию можно использовать для дальнейшей адаптации моделей машинного обучения.

    Теперь компания ведет исследование в рамках разработки объяснимого ИИ. Оно касается изучения функций, которые позволяют AI сделать тот или иной прогноз. Разработка видит одной из проблем то, что по мере разрастания системы становится все труднее увидеть точные причины конкретных прогнозов. Таким образом, одной из задач разработки объяснимого ИИ Google считает представление работы этой системы в форме, которая будет понятна.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 18

      +1
      На картинках выглядит пока ужасно
        0
        +
        image
          +13
          image
          0
          DIB-R смогла создать качественные модели по одной 2D-картинке.

          Очень качественно, особенно отрубленные ноги у птиц и помятые корпуса автомобилей.

          Но позабавило, это да. Сразу вспомнил попытки нейросети нарисовать картинки на основе датасета из WikiHow. Хотя сам я от руки рисую примерно так же, да.
            +1
            Это на основе пары картинок, представь что если робот с одной камерой делает 60 кадров в секунду и начинает понимать объем всех объектов вокруг, расстояние до них, их размеры и т.д. и это за 1/6 секунды. А если это будет камера дрона и он сможет без хитрых датчиков облетать любые препятствия и начнет наконец-то понимать где ветки деревьев, и что в них лететь не надо, сможет сам облетать людей независимо от сцены и снимать то что нужно без опасности врезаться.
              0
              Может облетать, а может и подлететь сзади и всадить заряд живительного свинца в черепушку. Страшненько всё это, страшненько.
            0
            Круто! Имхо, это естественный этап развития технологии машинного обучения. Мы это умеем делать на подсознательном уровне, теперь машины тоже научатся.
              +4
              Нет, мы этого не умеем делать «на подсознательном уровне». Дети этому учатся. Другое дело, что там наверняка есть какие-то «заточки» на аппаратном уровне…
                +1
                «умеем делать на подсознательном уровне»
                Если дать кусок глины/3d-редактор случайному прохожему, то скорее всего, окажется что не умеем.
                  0
                  Речь ведь не о создании 3d-моделей, а о понимании какая у объекта форма в объеме по двухмерному изображению.
                    +1

                    Это при условии, что мы видели ранее нечто похожее трехмерное. Либо надо как минимум три двумерных проекции, как в чертежах.

                      0
                      Люди могут предсказывать форму объекта по перспективе, свету и теням (если они есть).
                0
                В интересное время живем товарищи: мы не можем понять как работает мозг, создаем его цифровую модель и… не можем понять как работает эта модель. Для этого создаем модули которые обьясняют поведение нейросети. Чистейшая логика. Думаю дальше будет еще интереснее.
                  0
                  По сравнению с леопардом в форме дивана habr.com/ru/post/259191
                  image
                  — выглядит как наконец-то настоящий прорыв!
                    +1
                    В статье с этим «ягуаром» не было главного: никто даже не пытался проверить гипотезу (нифига не доказанную) про «уверен, эту картинку с первого взгляда легко опознает любой человек».

                    Потому как я, например, уверен, что с первого взгляда никакой «любой человек» её не опознает. Наоборот, если предъявлять картинку на всё более короткие промежтки времени (пара секунд, секунда, полсекунды и так далее), то число людей, увидевших тут леопарда будет расти, а число людей, обнаруживших диван — падать.

                    Да, пока нейровнные сети не умеют в сложные конструкции, которые в мозгу «во втором-третьем эшелоне» (и, тем более, в сознание) — и которые, собственно, обнаружив «подлог» «выключают» опознание леопарда и включают опознание дивана… Но как раз первая линия работает так же, как и у человека…
                      0
                      Чтобы люди приняли леопардовый диван за леопарда — мало демонстировать картинку в течение секунды, нужно этот диван ещё и запрятать по среди зарослей в каких водятся леопарды.
                        0
                        После этого довольно высок шанс не найти ни дивана, ни леопарда:)

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое