Часть 1. https://habr.com/ru/articles/848264/

Архитектура тактильно-визуального слияния и стабильная стратегия восприятия

Хотя предлагаемый мультимодальный тактильный сенсор наделяет роботов быстрым и сложным тактильным восприятием, само по себе тактильное восприятие недостаточно для удовлетворения потребностей роботов в сложных сценариях. Мы объединяем тактильное восприятие с визуальным и в дальнейшем внедряем гибридную тактильно-визуальную архитектуру слияния. Эта архитектура объединяет информацию тактильного и визуального восприятия на уровне данных, функций и решений, предоставляя роботам возможность эффективно взаимодействовать со сложными средами. Специфическая архитектура робота показана на рис. 4a. Мы разделяем архитектуру на разные уровни, начиная с нижнего, с уровня сигнала, за которым следует уровень восприятия, уровень принятия решений и, наконец, системный уровень. На уровне сигнала бинокулярная камера глубины используется для захвата визуальных сигналов, а вышеупомянутые мультимодальные тактильные датчики используются для сбора сигналов интерфейса, скольжения, давления и температуры. На уровне восприятия компьютер преобразует сигналы датчиков в соответствующие когнитивные функции. В частности, визуальные сигналы позволяют распознавать объекты и их локализацию, в то время как тактильные сигналы позволяют при контакте воспринимать температуру, теплопроводность, контактное давление, текстуру и состояние скольжения объектов. На основе мультимодального восприятия робот принимает соответствующее решение и отправляет задания исполнительным механизмам (роботизированной руке и автоматизированному управляемому транспортному средству (AGV)). Исполнительные механизмы выполняют ряд действий, таких как управление движением автомобиля с помощью AGV, приближение к объекту, захват и сортировка объектов роботизированной рукой. Объединив все эти уровни, мы создали комплексную тактильно-визуальную архитектуру роботизированной системы (системный уровень). Более того, благодаря дополнительным датчикам и исполнительным механизмам это может наделить роботов еще большими возможностями восприятия и выполнения, что позволяет выполнять более сложные задачи.

рисунок 4
Рис. 4: Архитектура тактильно-визуального робота.

a Архитектура робота, сочетающая тактильно-визуальное восприятие, включая уровень сигнала, уровень восприятия, уровень принятия решений и системный уровень. b Стратегия тактильно-визуального слияния для стабильного захвата: зрение обеспечивает положение захвата, а управление с тактильной обратной связью регулирует силу захвата путем обнаружения скольжения в режиме реального времени. c Фотографии захвата бумажного стаканчика и добавления воды с тактильной обратной связью. d Тактильные сигналы во время процесса захвата и добавления воды. Вначале рука робота устойчиво захватывает пустую чашку. Затем в чашку добавляется вода с тактильной обратной связью, и рука робота сохраняет устойчивый захват. e Фотографии захвата бумажного стаканчика и добавления воды без тактильной обратной связи. f Тактильный сигнал во время процесса захвата и добавления воды. Вначале рука робота устойчиво захватывает пустую чашку. Затем в чашку добавляется вода без тактильной обратной связи, чашка окончательно соскальзывает из-за увеличенного веса.

 В этой архитектуре мы также предлагаем тактильно-визуальную стратегию слияния, которая поможет роботу добиться устойчивого захвата различных объектов. Из-за разнообразия форм и размеров объектов для достижения стабильного захвата необходимо использовать индивидуальные стратегии захвата в соответствии с особенностями объектов. Распространенные стратегии восприятия в основном делятся на основанные на моделях и методы без моделей. Методы, основанные на моделях, обычно формулируют стратегии восприятия с помощью предварительно обученных моделей, но они связаны с относительно высокими затратами на обучение. Метод без модели не требует получения информации о типе предмета и напрямую определяет стратегию захвата на основе результатов наблюдения, выдаваемых камерой, например, обычно используемый метод пятимерного захвата. Однако в этом методе отсутствует подробная тактильная информация об объекте, поэтому он не может выполнять точные операции. Здесь мы предлагаем тактильно-визуальную стратегию слияния восприятия (рис.4b). Во-первых, положение захвата и поза роботизированной руки определяются в соответствии с контуром, размером и глубиной объекта, полученными зрением. Когда робот берет предмет, он сначала выполняет легкий захват и использует тактильное восприятие для обнаружения скольжения в режиме реального времени. При обнаружении соскальзывания рука робота по��тепенно увеличивает силу захвата, пока не достигнет устойчивого удержания. Когда соскальзывания не обнаружено, рука робота сохраняет текущее состояние захвата. Благодаря использованию этого элемента управления с тактильной обратной связью сила захвата, применяемая роботизированной рукой, сведена к минимуму до такой степени, что не происходит соскальзывания, что особенно важно при обращении с деликатными или хрупкими предметами.

Чтобы продемонстрировать, что нашу стратегию хватания можно применять к скользким или хрупким предметам, мы используем руку робота, оснащенную тактильными датчиками на пальцах, для захвата бумажного стаканчика, который постепенно наполняется водой. Как показано на рис. 4c,d, в исходном состоянии (0-t1) рука робота не захватывает никаких объектов, поэтому сигнал давления и сигнал интерфейса от тактильного датчика в это время равны нулю. В момент времени с t1 по t2 рука начинает сжимать пустую чашку (весит около 6,8 г), и сила захвата постепенно увеличивается. После того, как рука завершает хватательное действие, сигналы давления и интерфейса остаются практически неизменными (t2-t3), что указывает на устойчивый захват и отсутствие скольжения. После этого в чашку наливают воду при t3, и из-за увеличенного веса чашки происходит скольжение между чашкой и рукой робота, которое быстро обнаруживается тактильными датчиками. Рука робота быстро реагирует на увеличение силы захвата под управлением обратной связи в режиме реального времени до тех пор, пока не будет обнаружено скольжения, что обеспечивает стабильный захват (t 3-t4). После этого сигнал давления и сигнал интерфейса остаются неизменными, что указывает на прекращение подачи воды в момент времени t4, и после этого хватка остается стабильной. На данный момент чашка весит ~ 100 г, что примерно в 15 раз превышает первоначальный вес, в то время как бумажный стаканчик с водой удерживается стабильно, но не деформируется. Отмечается, что большое усилие захвата может раздавить бумажный стаканчик и, таким образом, разлить воду. Для сравнения на рис. 4e и f показаны результаты без контроля скольжения с обратной связью. При наливании воды в чашку чашка соскальзывает, поскольку рука робота не осознает скольжения и, следовательно, не может соответствующим образом адаптировать силу захвата. Это сравнение демонстрирует, что управление с обратной связью по скольжению в реальном времени позволяет добиться стабильного захвата объектов при минимальном усилии захвата, чтобы избежать раздавливания хрупких предметов, что необходимо для деликатных манипуляций роботами. Важно, чтобы обнаружение скольжения было сверхчувствительным и сверхбыстрое (в этой работе обнаружение скольжения достигает сверхчувствительности 0,05 мм / с и сверхбыстрого времени отклика 4 мс), чтобы гарантировать успех более стабильного захвата.

Стратегия распознавания тактильно-визуального слияния

Помимо стабильного захвата объектов, важной функцией роботов также является точное распознавание объектов. Например, когда робот помогает в выполнении домашних задач, таких как подача напитков, обычно требуется идентификация чашки и определение того, есть ли содержимое внутри, наряду с приблизительной оценкой состава содержимого для последующих точных манипуляций. В нашей повседневной жизни люди обычно идентифицируют объекты с помощью зрения. Однако зрение робота ограничено в распознавании объектов в домашней обстановке из-за помех от окружающего света, загораживания и путаницы с объектами похожей формы, как упоминалось ранее. Предметы повседневной жизни изготовлены из разнообразных материалов, и многие из них имеют схожие формы и цвета. Только зрению трудно различать предметы повседневного обихода одинаковой формы, такие как скомканная бумага, пластиковые пакеты и салфетки. В отношении объектов, которые невозможно распознать только зрением, люди используют тактильное восприятие для вынесения точных суждений на основе характеристик объекта - температуры, давления, теплопроводности, текстуры и т.д. Черпая вдохновение в этой концепции, мы предлагаем каскадную тактильно-визуальную стратегию слияния для распознавания объектов, которая синтезирует мультимодальную сенсорную информацию для точной идентификации объектов (рис.5a). Во-первых, визуальная информация используется в модели YOLOv3 для распознавания объектов на основе их формы, размера, цвета и т.д., Что приводит к дифференцируемым категориям, таким как шарообразные, бутылкообразные, чашеобразные, бесформенные и т.д. Впоследствии для визуально похожих объектов в пределах одной категории используется тактильное восприятие для более точного различения. А бесформенные объекты можно разделить на такие типы, как полиэтиленовый пакет, оберточная бумага, салфетка, ткань и т.д. Благодаря использованию информации о теплопроводности, давлении и температуре объекта с помощью мелкой нейронной сети (SNN). Ткань можно дополнительно разделить на флис, деним, нейлон и т.д. С помощью классификатора дерева мешков в зависимости от теплопроводности и текстуры материала. Что касается объектов чашеобразной формы, следует отметить, что само по себе визуальное восприятие не может определить, находится ли содержимое в непрозрачной чашке. Мы можем использовать функцию обнаружения скольжения, чтобы определить, есть ли вес внутри чашки, и дополнительно использовать показатели теплопроводности и температуры для оценки состава содержимого. Следуя этому подходу, мы эффективно интегрируем несколько сенсорных входов для достижения точной идентификации объекта. Время распознавания при использовании стратегии тактильно-визуального слияния составляет около 80 мс. Кроме того, по мере накопления большего количества сенсорной информации эта стратегия может быть расширена для достижения точного распознавания большего количества других объектов в повседневной жизни.

рисунок 5
Рис. 5: Стратегия распознавания с тактильно-визуальным объединением для сортировки предметов и уборки стола.

a Стратегия распознавания тактильно-визуального слияния, где Matter T. C., Press и Temp относятся к теплопроводности вещества, давлению и температуре соответственно. в матрице путаницы при распознавании объектов с использованием только зрения общая точность распознавания составляет всего 59%. c Матрицей путаницы при распознавании объектов с использованием только тактильных ощущений общая точность распознавания составляет 92%. d Матрица путаницы в распознавании объектов при использовании стратегии тактильно-визуального распознавания точность распознавания достигает 96,5%. A = скомканная бумага, B = тряпка для уборки, C = салфетка, D = пластиковый пакет, E = пластиковая бутылка, F = апельсиновая корка, G = чашка с холодной водой, H = чашка со спиртом, I = чашка с горячей водой, J = пустая чашка. e Тактильно-визуальный робот помогает при уборке стола. (I) Определение местоположения объекта на основе зрения. (II) Устойчивое хватание и распознавание объектов на основе тактильных ощущений. (III) Продуманная сортировка и сбор.

Чтобы продемонстрировать превосходство тактильно-визуальной стратегии распознавания слияния, мы используем тактильно-визуальную стратегию слияния для идентификации 10 предметов повседневной жизни, включая бумагу, салфетку, пластиковый пакет, пластиковую бутылку, апельсиновую корку, пустую чашку, стакан с холодной водой, алкоголем и горячей водой. Для каждого элемента мы собираем 70 образцов и случайным образом делим собранные наборы данных на обучающий набор, набор для проверки и набор для тестирования (соотношение 4: 1: 2). Обучение модели занимает около 0,33 секунды. Мы также сравниваем результаты, используя только визуальное или только тактильное распознавание. Здесь результаты показаны на рис.5b-d получены в результате независимых экспериментов с использованием соответствующих методов распознавания соответственно. Матрица путаницы распознавания с использованием только зрения показана на рис.5b, а общая точность распознавания составляет всего 59%. Неправильное распознавание в основном происходит на бесформенных объектах чашеобразной формы. Что касается бесформенных предметов (например, скомканной бумаги для печати, салфетки или пластикового пакета), то они не имеют четкой формы и схожих цветов, что позволяет легко спутать их друг с другом при визуальном восприятии. Для объектов чашеобразной формы трудно определить содержимое жидкости зрением из-за заграждения прямой видимости и прозрачности жидкости. Используя только тактильное восприятие для идентификации вышеуказанных объектов, матрица путаницы распознавания показана на рис. 5c, а общая точность распознавания достигает 92%. Тактильное восприятие позволяет достичь высокой точности распознавания большинства объектов. Однако тактильному сенсору сложно различать объекты сложной формы, такие как апельсиновая корка (75%). Кроме того, использование предлагаемой стратегии тактильно-визуального распознавания, сочетающей преимущества как сенсорного, так и зрительного восприятия, позволяет достичь высочайшей точности распознавания - 96,5% (рис.5d). Комбинированное зрение также помогает в определении положения объекта и позы для тонкого захвата.

Роботизированный рабочий стол - задача по уборке для помощи в домашнем хозяйстве

Кроме того, мы применяем предложенного тактильно-визуального робота в реальных сценариях, робот автономно выполняет задачи по уборке стола. В этой задаче робот координирует все компоненты (роботизированную руку, AGV, камеру и тактильные датчики) на основе архитектуры тактильно-визуального слияния, показанной на рис.4a, для выполнения различных действий и, наконец, для уборки предметов на рабочем столе, как показано на рис.5e. Сначала робот входит в комнату, использует свою камеру для сканирования и определения местоположения предметов на столе и перемещается в непосредственной близости от предметов с помощью AGV. Затем робот использует тактильно-визуальную стратегию слияния, чтобы стабильно захватывать объекты. В то же время робот идентифицирует типы объектов, используя тактильно-визуальную стратегию распознавания fusion, и помещает эти объекты в сортировочные ящики в соответствии с их каталогами. Примечательно, что при работе с чашкой, содержащей жидкость, робот умело обнаруживает жидкость с помощью тактильного захвата, затем наливает жидкость в резервуар для воды и, наконец, помещает пустую чашку в коробку для вторичной переработки. С некоторыми предметами, которые трудно схватить, такими как ручка, лист бумаги, книга, робот с тактильно-визуальным слиянием может разумно обращаться с ними, перемещая предметы на край стола, а затем ловко хватая их, как люди.

Визуальное распознавание позволяет идентифицировать объекты, сильно отличающиеся по внешнему виду, но визуально похожие объекты, такие как салфетка и тряпочка для чистки, отличить сложно. Кроме того, зрение не может распознать прозрачную жидкость в чашке. Хотя тактильное распознавание позволяет хорошо различать материалы, точность распознавания объектов сложной формы, таких как апельсиновые корки, оставляет желать лучшего. Кроме того, из-за отсутствия визуального руководства робот, обладающий только тактильным восприятием, не может выполнять такие задачи, как определение местоположения объекта, что затрудняет его применение в реальных сценариях. Стремясь ловко обращаться с повседневными предметами первой необходимости, робот должен интегрировать возможности тактильного и визуального восприятия, эффективно координируя их для выполнения восприятия и когнитивных функций, принятия стратегических решений и управления системой. Поэтому мы предлагаем тактильно-визуальную архитектуру робота, объединяющую тактильную и визуальную информацию с уровня сигнала, восприятия и принятия решений, наделяя робота надежными сенсорными возможностями и мастерством исполнения. На этой основе мы разрабатываем соответствующие стратегии тактильно-визуального слияния для захвата и распознавания объектов. Стратегия захвата использует быструю и чувствительную обратную связь по скольжению для осуществления точного захвата с минимальной силой захвата, а стратегия распознавания тактильно-визуального слияния использует гибридную каскадную стратегию для реализации точного распознавания различных предметов первой необходимости, включая определение содержимого жидкости в чашке. Мы применяем предложенную стратегию распознавания для идентификации обычных объектов повседневной жизни, достигая точности распознавания 96,5%, что значительно превосходит только визуальное (59%) или только тактильное (92%) распознавание. Кроме того, используя предложенную тактильно-визуальную архитектуру слияния и стратегии восприятия / распознавания, робот автономно выполняет задачу по уборке рабочего стола. Результаты демонстрируют многообещающий потенциал интеллектуальных роботов с тактильно-визуальным объединением для ведения домашнего хозяйства, что значительно снижает потребность в ручном труде. Разработанные мультимодальные тактильные датчики и предлагаемая тактильно-визуальная архитектура робота-слияния наделяют робота превосходными перцептивными и исполнительными возможностями, облегчая гибкое и надежное взаимодействие с людьми и помогая людям в повседневной жизни.