В NVIDIA разработали способ обучения роботов почти без вмешательства человека



    Исследователи из NVIDIA представили новый подход к обучению роботов в симуляции, который не нуждается в ручной настройке параметров моделирования. Человеку достаточно задать начальные условия симуляции, а всё остальное она сделает сама.

    Обучение роботов в симуляции позволяет создать столько моделей роботов, сколько позволяют вычислительные мощности, запустить моделирование и получить результат быстрее, чем при обучении на реальных объектах. Но у него есть серьёзный недостаток — ни одна модель не может идеально воссоздать реальные условия. Необходимо тщательно настраивать параметры моделирования, проверять результат на практике и вносить изменения в симуляцию.

    Питер Аббил из Калифорнийского университета в Беркли так описал этот процесс:
    «Для всех, кто использует симуляции в реальных исследованиях, доказательством их успеха является факт переноса на реального робота. И этот процесс может занять много итераций. Это не “я обучил в симуляции, затем реальный робот все успешно выполнил”, а “я обучил в симуляции, попробовал на роботе, ничего не получилось, переделал симуляцию и теперь надеюсь, что всё наконец заработает”. Это может повторяться целую вечность, прежде чем вы получите нужное поведение. В процессе обучения вы постоянно проверяете на реальном роботе, чтобы увидеть, работает ли результат».

    Чтобы избавиться от ручной настройки, исследователи из NVIDIA передали данные об ошибках реального робота обратно в симуляцию для уточнения параметров. В этой системе обучение шло в симуляции, затем результат отправлялся на тест, а система с помощью 3D-сенсора наблюдала за роботом и корректировала параметры моделирования. После нескольких итераций она применила наиболее подходящие значения, и робот справился с заданием.

    Подобный подход занимает больше времени, чем обучение с ручной настройкой, но он позволяет обучить сразу много роботов разным задачам, что невозможно сделать вручную.
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 3

      0
      Человек ещё не создал путёвый AI, а уже начал учить тот, что есть, обходиться без себя
        0

        Хорошая задумка. Но все таки, лучше, чтобы люди все контроллировали, а то получится вот что
        (Комментарий имеет сугубо юмористический характер)

          0
          Автор не привел результаты такого новшества.
          Иными словами, реализован алгоритм локального точечного исправления кода под контролем оператора (программиста), пока последний не остановит этот процесс, автомат не приступит к непосредственному процессу и будет бесконечно учиться.
          Интересно сколько времени занимает такой метод по сравнению с другими. С одной стороны отпадает необходимость в привлечении кодера, с другой время — деньги. Реализована ли технология мониторинга одновременного обучения.
          Если в качестве примера взять алгоритм обучения манипулятора Baxter, там не требуется мониторить процесс, все присходит в 1 заход «Мастер — ученик».
          Статья нуждается в более развернутом изложении.

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое