Робот для пинг-понга: умнее, быстрее, точнее / Хабр

Многие виды спорта являются либо командными, либо парными занятиями. Но не всегда у человека может быть кто-то, кто готов составить ему компанию в дружеском матче по пинг-понгу. В такой ситуации на помощь придет робот, разработанный учеными из Массачусетского технологического института (США). Из чего сделан пинг-понг робот, в чем его особенности, и насколько хорошим соперником он может быть? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Роботизированный настольный теннис предлагает решение многих проблем в режиме динамической манипуляции, где обрабатываемый объект не является неподвижным. В отличие от других задач манипуляции, контакт здесь должен быть преднамеренным, импульсивным и выполняться с высокой скоростью и точностью, при этом управление манипулятором и прогнозирование траектории мяча происходят одновременно. Существующие роботизированные системы настольного тенниса, которые справились с этим, как правило, страдают от двух недостатков. Первый заключается в том, что они могут быть узкоспециализированными. Эти системы не могут быть легко модифицированы для выполнения других задач динамической манипуляции. Во-вторых, они могут страдать от низкого ускорения из-за своей массы и инерции ротора.

В рассматрив��емом нами сегодня труде ученые описывают созданную ими легкую, высокомоментную, малоинерционную антропоморфную руку, а также модель предиктивного управления и модель предиктивного отслеживания мяча, которые вместе позволяют роботу наносить удары по светоотражающим мячам для настольного тенниса с различными типами замаха.

Изображение №1

Основной акцент ученых был сосредоточен на воспроизведении топспина (loop), резаного удара (chop) и наката (drive), как показано выше, с конечной целью достижения человеческого паритета по этим типам ударов. Продвинутые игроки-люди способны возвращать мячи, используя топспин со скоростью около 21 м/с и накат со скоростью около 25 м/с. Роботизированные системы с трудом достигают этого уровня производительности.

Ранее созданные роботизированные системы показывают скорость вылета мяча 12 м/с, но с пневматическим приводом руки с четырьмя степенями свободы (DoF от degree-of-freedom), что ограничивает типы достижимых замахов. Другие системы обладают большим спектром движений, но скорость мяча не превышает 6.8 м/с.

Описание системы

Изображение №2

Чтобы достичь скорости и ускорения, необходимых для замахов в настольном теннисе на уровне человека, была использована модифицированная версия руки MIT Humanoid с 5 степенями свободы. Как показано выше, рука была спроектирована с массой привода на проксимальном конце, чтобы уменьшить ее инерцию. Рука имеет общую массу 3 кг с четырьмя приводами U10, выдающими 34 Нм пикового крутящего момента с 0.00612 кг ・ м² эффективной инерции ротора. 5-я степень свободы приводится в действие Dynamixel весом всего 82 грамма и отвечает за ориентацию ракетки и запястья. Благодаря легкой конструкции, плотному крутящему моменту и низкой отраженной инерции рука способна развивать ускорение в диапазоне 180–300 м/с² на конечном эффекторе. Вместе они позволяют определять положение ракетки (3 DoF) и нормаль поверхности (2 DoF) в пределах рабочего пространства. Шестая степень свободы была исключена из конструкции руки, поскольку любое вращение ракетки вокруг нормали ракетки не изменяет условий контакта.

Чтобы определить область возможных положений, в которых ракетка также могла бы достигать достаточных ориентаций, был проведен анализ рабочего пространства с использованием простого кинематического решателя. Это исследование было выполнено в плоскости Y-Z, пересекающей плечо, где рука намеревается ударить по мячу при замахе. Ученые назвали это плоскостью удара. Вектор нормали к поверхности ракетки использовался для измерения того, насколько хорошо ракетка достигла своей желаемой ориентации. В каждом проверенном положении на плоскости удара желаемая нормаль ракетки была смещена между ±15° по горизонтали и ±45° по вертикали. Ошибка для каждой проверенной ориентации ракетки была усреднена для каждого положения плоскости удара, как показано ниже. Большая область рабочего пространства руки, где ошибка ориентации составляет менее 10°, указывает на то, что она способна совершать замах различными способами по всему своему рабоч��му пространству.

Изображение №3

Было использовано шесть камер захвата движения OptiTrack Flex 13 для отслеживания стандартных мячей для настольного тенниса, обернутых светоотражающей лентой. Хотя это изменяет динамику мяча, эта система была выбрана в качестве готового решения для отслеживания с низкой задержкой, частотой кадров 120 Гц и точностью менее миллиметра.

Изображение №4

Система состоит из трех компьютеров, на которых запущено несколько процессов, которые взаимодействуют через Lightweight Communications and Marshalling (LCM) и NatNet по сети интернет, как показано выше. Ученые стремились минимизировать эффективное время реакции, время между новым наблюдением за мячом и обновленным срабатыванием двигателя. Это включает в себя задержку связи, время прогнозирования мяча и время оптимизации траектории руки. Они были измерены и составили 0.2–0.6 мс, 0.5–7.0 мс и 4.5–6.5 мс соответственно. В целом эффективное время реакции между получением новых наблюдений за мячом и выполнением новых траекторий на оборудовании составило 7.5–16 мс.

Прогнозирование траектории мяча

Чтобы предсказать траекторию мяча при его полете в сторону руки, была интегрирована упрощенная версия динамики, предполагая, что ненаблюдаемое входящее вращение равно нулю и постоянно. Динамика показана в уравнениях (1) и (2), где a и v — векторы ускорения и скорости мяча соответственно, а a_g — ускорение под действием силы тяжести. Член v′ представляет скорость после отскока, а коэффициенты D, C_h и C_v — параметры сопротивления и восстановления, подобранные для наблюдаемых траекторий мяча.

Более конкретно, член D — это сосредоточенный параметр сопротивления, который инкапсулирует все физические параметры мяча и окружающей среды, которые вносят вклад в силу сопротивления на мяче. Оценка этого члена выполнялась посредством линейной подгонки наименьших квадратов для соотношения ||a_Ball − a_g|| = D||v||², используя наблюдаемые скорости и ускорения из собранных траекторий мяча.

Члены C_v и C_h связывают вертикальную и горизонтальную скорости мяча до и после отскока и также оцениваются с использованием метода наименьших квадратов на основе наблюдаемых скоростей до и после отскока.

Текущее состояние мяча, состоящее из его положения и скорости, используется в качестве начального условия для динамической интеграции, завершающейся в плоскости удара. Эту точку на плоскости удара отмечали как p_des, где рука пытается ударить мяч в сопутствующее время удара t_strike. Для оценки состояния положение мяча задается непосредственно OptiTrack. Скорость достигается с помощью метода, в котором полиномы 3-го порядка подгоняются под наблюдаемые положения и время мяча. Оценка производной этих полиномов в текущий момент времени дает более точную оценку скорости по сравнению с методами конечных разностей. Поскольку контроллер руки напрямую реагирует на p_des, дисперсия между последовательными прогнозами была уменьшена, используя десятиточечное скользящее среднее.

Изображение №5

Алгоритм прогнозирования оценивался путем измерения p_des и t_strike на протяжении всей траектории мяча и сравнения их с их истинными значениями. Выше показано, что в среднем ошибка для p_des находится в пределах половины ширины ракетки к моменту начала замаха. Эти ошибки резко уменьшаются после отскока мяча от стола, что происходит в среднем за 0.25 секунды до удара. Данная модель также последовательно предсказывает t_strike в пределах 0.25 мс после начала замаха.

Движения манипулятора

Чтобы сгенерировать траектории замаха для руки, была сформулирована задача оптимального управления (OCP от optimal control problem), которая позволяет обрабатывать кинематические ограничения руки и условия удара ракеткой как ограничения. Эта OCP реализована в контроллере прогнозирования модели (MPC от Model Predictive Controller), который перепланирует траектории с учетом самой последней информации о состоянии для обработки изменений условий удара во время замаха.

Уравнения (3a)-(3i) описывают OCP, используемый в MPC, где входные параметры p_des, v_des и o_des ∈ R³ определяют конечное положение, скорость и ориентацию ракетки при ударе по мячу. Функция стоимости минимизирует общее ускорение и скорости каждого узла, взвешенные по w_a и w_v соответственно (3a). Начальные условия траектории ограничены параметрами q₀ и q̇₀ ∈ R⁵.

Матрицы траектории положения, скорости и ускорения сустава равны q[.], q̇[.], q̈[.] ∈ R^5×N соответственно. Уравнения (3d)-(3f) включают предел сустава (q_max и q_min) и ограничения динамики с Δt в качестве временного шага. Векторы положения и скорости конечного эффектора получаются с использованием функции прямой кинематики FK и якобиана центра ракетки J, в q_f конечного узла положения q[N]. Эти значения ограничены допусками ϵ_p и ϵ_v.

Ориентацию определяли как единичный нормальный вектор от поверхности ракетки: FK_o(q_f) − FK(q_f), где FK_o(q_f) — функция прямой кинематики для точки нормального вектора над поверхностью ракетки. Для упрощения OCP метрика расстояния между векторами ориентации определяется их евклидовым расстоянием, а не углом пересечения. Поэтому уравнение (3i) ограничивает ориентацию ракетки так, чтобы она находилась в пределах ϵ_o от желаемого единичного нормального вектора o_des. Эта задача оптимизации была построена с использованием CasADi, а в качестве решателя использовался IPOPT.

Реализация управления с прогнозированием

Изображение №6

Существует два способа реализации этого OCP в контроллере с прогнозированием модели. Первый использует текущее состояние руки в качестве входных данных для q₀ и q̇₀. Это требует, чтобы член Δt в OCP сокращался по мере приближения руки к p_des. Ученые назвали эту реализацию Shrinking Horizon MPC (SHMPC), которая является особым случаем Variable Horizon MPC. Второй подход использует состояние готовности руки в качестве начальных условий, а не текущее состояние, сохраняя при этом Δt постоянным. Это эквивалентно оптимизации для полного хода из положения готовности с корректировкой только для обновленного p_des. Ученые назвали этот метод Fixed Horizon MPC (FHMPC). Недостатком FHMPC является то, что последующие новые решения не гарантированно будут близки к текущему состоянию, что может привести к агрессивным изменениям заданных значений для отслеживания новой траектории. Обе реализации используют свои предыдущие решения для запуска следующего OCP с целью ускорения сходимости и сокращения времени решения.

Таблица №1

Ученые сравнили эти две реализации MPC, моделируя их с использованием фиксированных условий удара, а также условий, полученных из 82 испытаний реальных данных прогнозирования. Также сравнивалась производительность MPC без теплого старта на тех же данных прогнозирования. Таблица №1 показывает результаты оценки трех тестов. Коэффициент сходимости был рассчитан путем сравнения количества сходящихся решений с общим количеством попыток решения. Результаты показывают, что FHMPC решает в два раза быстрее и сходится чаще, чем SHMPC. Для тестов, где реализации не запускались с теплого старта, время решения было немного меньше для SHMPC, что указывает на то, что теплый старт FHMPC более эффективен. Это можно отнести к изменяющейся временной шкале SHMPC, где каждое решение не обязательно является хорошим начальным предположением для следующей более короткой задачи.

Учитывая данные, был выбран метод FHMPC, поскольку он обеспечи��ает больше решений во время замаха благодаря более быстрому времени решения и высокой скорости сходимости. Это делает руку более восприимчивой к новым прогнозам траектории мяча. Чтобы устранить недостатки FHMPC, алгоритм прогнозирования использовал скользящее среднее p_des, которое, в свою очередь, уменьшало дисперсию между последующими решениями от FHMPC. Чтобы обрабатывать большие изменения заданных точек, также выполнялся плавный переход от предыдущей траектории к новому решению, используя S-образную кривую более 20 мс. Этот короткий переход обеспечивается оборудованием, которое может обрабатывать высокие ускорения.

Наконец, чтобы гарантировать, что рука встретит мяч в соответствующее время удара t_s, был выбран индекс i^∗ вдоль оптимальной траектории, которая соответствует оставшемуся времени в замахе. Уравнения (4a) и (4b) описывают эту логику, которая позволяет руке прыгать вперед или замедляться вдоль траектории для правильного расчета времени. Здесь t, T_swing — текущее время и продолжительность замаха соответственно, в то время как N_i — количество узлов после интерполяции, а S_max — максимальный шаг, на который MPC может прыгать вперед по траектории.

Выходные данные формулы MPC представляют собой состояние и траекторию ускорения, которые затем интерполируются для получения узлов с интервалом в 2 мс. Поскольку система рычага может рассматриваться как полностью приведенная в действие, динамика, показанная (5a), может быть инвертирована для получения крутящего момента прямой связи, u в (5b), на основе состояния и желаемого ускорения, q̈_des из оптимизированной траектории.

В (5a) и (5b) M(q), C(q, q̇) и τ_g(q) представляют собой матрицу масс, вектор Кориолиса и вектор силы тяжести соответственно. Вместе полученный u, вместе с простым контроллером, гарантирует, что суставы руки точно отслеживают заданные точки траектории.

Оценка работы системы

Изображение №7

Представленная система способна отбивать мячи, запущенные в рабочее пространство руки, с заданными условиями удара. Чтобы комплексно оценить систему, ученые провели испытания с различными типами замаха, чтобы проверить прогнозирование, генерацию замаха и выполнение замаха вместе на оборудовании. Тесты включали бросание 150 мячей в руку, где продолжительность замаха была установлена на 0.5 секунды, а конечная скорость ракетки была установлена на 6 м/с. В таблице №2 показаны параметры скорости и ориентации, используемые для каждого типа замаха: топспин (loop), резаный удар (chop) и накат (drive). Направление скорости и ориентации ракетки определяется ϕ, θ, β и α на схеме выше.

Таблица №2

Для каждого теста измерялись истинные условия удара (p, v, o) вместе с состояниями мяча до и после удара. Из 150 мячей, брошенных для каждого типа замаха, процент попаданий составил 88.4% для топспина, 89.2% для резаного удара и 87.5% для наката. Гистограммы ошибок положения, величины скорости, ориентации и направления скорости показаны на графиках ниже.

Изображение №8

Погрешность положения находится в пределах критического расстояния 7.5 см для большинства ударов, в то время как величина скорости также находится в пределах 2 м/с от желаемой скорости удара. Для ориентации ракетки ϕ находится в пределах 10° от желаемого направления, тогда как при попытке достичь желаемого θ наблюдается более высокая дисперсия с ошибками до 20°. Аналогично, v был более точным для вертикального угла β, чем для горизонтального угла α.

В целом дисперсия в распределениях ошибок скорости была выше, чем у их аналогов ошибок ориентации. Большая разница в ошибках между ϕ и β по сравнению с θ и α может быть объяснена отсутствием управления в этом измерении. Поскольку степень свободы запястья максимально совпадает с осью y при ударе по мячу, можно легко внести небольшие корректировки в ϕ и β, в то время как для изменений θ и α требуются более выраженные движения.

Изображение №9

Чтобы увидеть, как эти ошибки влияют на выходное состояние мяча, входящая скорость мяча v⁻_ball использовалась в модели столкновения вместе с целевым состоянием ракетки (p_des, v_des и o_des) для получения прогнозируемой выходной скорости мяча после столкновения v⁺_ball. Модель контакта была изменена для исключения входящего вращения мяча, а параметры контакта были настроены для максимально точного соответствия данным оборудования. Величина вместе с вертикальными и горизонтальными углами сравнивались между прогнозируемым и измеренным v⁺_ball. Распределения этих трех ошибок показаны на графиках выше.

Подобно отслеживанию скорости ракетки, большинство измеренных v⁺_ball мяча находились в пределах 2 м/с от прогнозируемого значения. Для вертикального и горизонтального направлений большинство выходных скоростей находились в пределах 10° от цели, что намного лучше, чем ошибка отслеживания ракетки. Выходные скорости мяча составляли от 7 до 11 м/с в зависимости от типа удара. При тестировании верхних пределов срабатывания были зарегистрированы средние скорости мяча до 14 м/с при ударах, где |v_des| был установлен на 10 м/с.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.

Эпилог

В рассмотренном нами сегодня труде ученые создали роботизированную систему для игры в настольный теннис, которая отличается от предыдущих аналогов своей скоростью и точностью реакции на траектории мяча. Робот был оснащен системой прогнозирования положения, скорости и траектории мяча.

Данный робот является манипулятором, состоящим из нескольких подвижных деталей, что обеспечивает высокую степень свободы движений. Высокоскоростные камеры и система прогнозирования позволяют роботу оценить как мяч движется в его сторону, а затем отбить его, используя один из трех типов удара: топспин (loop), резаный удар (chop) и накат (drive). В ходе практических испытаний робот успешно отбил 88% из 150 запущенных в него мячей. Максимальная скорость замаха ракеткой составила 19 м/с, что почти сопоставимо со скоростью, демонстрируемой игроками-людьми (21-25 м/с).

Стоит отметить, что разработанная система может использоваться не только для настольного тенниса, но и для совершенствования скорости и реагирования гуманоидных роботов, особенно для поисково-спасательных операций и ситуаций, в которых роботу необходимо быстро реагировать или предвидеть определенные аспекты окружающей его среды.

Ученые также оснастили робота способностью целиться за счет алгоритмов управления, которые предсказывают не только как, но и куда ударить по мячу. Однако в будущем робота все еще нужно совершенствовать. К примеру, на данный момент он закреплен к игровому столу, что сильно ограничивает его подвижн��сть. Ученые намерены перенести его на подвижную платформу, что расширит спектр движений робота и, как следствие, типов замахов ракеткой, которые он сможет реализовать.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Робот для пинг-понга: умнее, быстрее, точнее