Как научить робота выходить из лабиринта домино только «глазами»: Jetson Nano + Arduino

Побег Робота из лабиринта. Технологи: Jetson + Arduino + CV. Робот находит выход из лабиринта только с помощью компьютерного зрения.
Роботы, роботы, роботы
Побег Робота из лабиринта. Технологи: Jetson + Arduino + CV. Робот находит выход из лабиринта только с помощью компьютерного зрения.
Когда дроны только появились, ими можно было управлять разве что с пульта или через текстовые команды — «поверни налево», «лети прямо», «вверх на два метра». Всё это выглядело немного старомодно и, прямо скажем, неудобно: попробуй опиши словами маршрут, если дрон видит перед собой живую картинку, а тебе надо всё переводить в текст. И вот появился довольно неожиданный подход — вместо текстовых инструкций просто показывать дрону, куда лететь, буквально указывая нужную точку в кадре.
Теперь команда для беспилотника — это не набор слов, а пиксель на изображении, а значит, связь между вашим замыслом и настоящим полетом стала куда более непосредственной. Модель сама определяет, как лететь к этой точке, одновременно замечает препятствия и быстро реагирует, если что-то изменится. Что получилось из этой попытки «разговаривать» с дроном языком зрения — и c какими проблемами исследователи столкнулись на практике? Всё оказалось интереснее, чем кажется на первый взгляд.
ESP32 давно зарекомендовал себя как универсальный микроконтроллер для IoT: он умеет работать с Wi-Fi и Bluetooth, управлять сенсорами и исполнительными устройствами. Но за последние годы стало ясно, что даже на таких простых устройствах можно запускать алгоритмы машинного обучения.
В этой статье рассмотрим, как на ESP32 можно реализовать три базовых алгоритма классификации — дерево решений, метод К-ближайших соседей (KNN) и полносвязную нейросеть на TensorFlow Lite.
Для эксперимента использовался датчик цвета GY-31 (TCS230). Он преобразует отражённый от поверхности на которую направлен свет в три значения — красный, зелёный и синий (R, G, B). Задача: по этим трём числам определить, какой цвет «видит» сенсор: красный, оранжевый, жёлтый, зелёный, синий, фиолетовый, белый или чёрный.
Модуль ESP32-CAM - это доступное и компактное решение, которое сочетает в себе микроконтроллер ESP32 и камеру OV2640. Благодаря своей низкой цене и широким возможностям он стал популярным выбором среди разработчиков проектов в области IoT, компьютерного зрения и робототехники.
В данной статье я собрал серию из 15 практических уроков, каждый из которых сопровождается видео и исходным кодом. Вместе мы пройдём путь от базового примера захвата изображения до реализации алгоритмов компьютерного зрения и даже интеграции TensorFlow Lite для классификации объектов прямо на ESP32-CAM.
Материалы организованы по нарастающей сложности: начиная с простого веб-интерфейса и работы с памятью устройства, и заканчивая фильтрацией изображений, преобразованием Хафа и нейронными сетями. Для каждого урока вы найдёте:
Недавно МТС анонсировали очередное соревнование TrueTechChamp 2025 — в нём две части — одна с типичными «алгоритмическими» задачами, другая на «программирование роботов». Участвовать можно в любой (или в обеих), но с первой всё незамысловато — а мы поговорим о второй.
«Отборочный» этап продлится ещё больше 3 недель (до 20 октября), так что любой желающий может влиться. Эта заметка расскажет, в чём собственно заключаются задачи, и с какими сложностями мы сталкиваемся — также будут замечания организационного характера. Надеюсь это поможет тем, кто также захочет поучаствовать. Ну или просто поведает о происходящем для тех, кому любопытно, но регистрироваться неохота. Можно даже погонять роботов локально, без регистрации, скачав нужные материалы.
Что с точки зрения CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?
Устройство обнаруживает повреждения, заживляет их и возвращается в режим обнаружения новых.
Команда инженеров из Университета Небраски–Линкольна сделала ещё один шаг к созданию мягкой робототехники и носимых систем, которые имитируют способность кожи человека и растений обнаруживать повреждения и самостоятельно восстанавливаться.
Инженер Эрик Марквичка вместе с аспирантами Итаном Кригсом и Патриком МакМенигалом недавно представили доклад на Международной конференции IEEE по робототехнике и автоматизации (ICRA) в Атланте, где изложили системный подход к мягкой робототехнике, способной выявлять повреждения от прокола или давления, определять их местоположение и автономно инициировать самовосстановление.
Доклад вошёл в число 39 лучших из 1606 заявок и стал финалистом премии ICRA 2025 Best Paper Award. Он также был отмечен в номинациях «Лучшая студенческая работа» и «Механизмы и дизайн».
Подход команды может помочь преодолеть давнюю проблему в разработке мягкой робототехники, которая использует принципы, вдохновлённые природой.
«В нашем сообществе есть огромный интерес к тому, чтобы воспроизводить традиционные жёсткие системы с помощью мягких материалов и использовать биомимикрию, — сказал Марквичка, доцент кафедры биомедицинской инженерии имени Роберта Ф. и Мирны Л. Крон. — Мы научились создавать растяжимую электронику и мягкие актуаторы, но они редко имитируют биологию в способности реагировать на повреждения и запускать самовосстановление».
Чтобы восполнить этот пробел, команда разработала интеллектуальную самовосстанавливающуюся искусственную мышцу с многослойной архитектурой, которая позволяет системе обнаруживать и локализовать повреждения, а затем инициировать процесс саморемонта — без внешнего вмешательства.
Помните ли вы хоть одну технологию, которая обещала изменить мир и... просто исчезла?
На картинке всё смотрится красиво: концепт, прототип, ролик с драматичным саундтреком. В реальности — десятки причин, почему это не стало частью нашей повседневности: регулирование, экономика, человеческие привычки и просто здравый смысл. Что ж, давайте посмотрим, какие вещи не стали мейнстримом и почему. Детали под катом.
Роботы становятся частью реальных процессов — от производства до медицины. Поэтому создание умных машин требует быстрой разработки, высокой надежности и цифрового контроля. В этом помогает ключевая технология — виртуальный двойник. Это не просто симуляция, а точная цифровая копия реальной роботизированной системы, которая обеспечивает связь между физическим и цифровым миром. Что такое цифровой двойник и чем он полезен для создания и тестирования роботов, расскажем в этой статье.
Приветствуем, коллеги!
Вы читаете первую статью от имени издательства «БХВ» (BHV) из Санкт-Петербурга, которое наконец-то решило официально обосноваться на Хабре и попробовать систематизировать нашу работу на этой великолепной платформе, объединив рекламный контент, тизеры и спойлеры в корпблоге. Меня зовут Олег Сивченко, я тружусь в БХВ менеджером проектов в области компьютерной литературы 4+ года, одновременно работаю в редакции Хабра, где веду небесспорный, но очень интересный научно-популярный блог @OlegSivchenko и блог с IT-переводами @Sivchenko_translate Кроме меня в команде БХВ есть ещё один маститый хабровчанин, пишущий под псевдонимом Валентин Холмогоров @Holmogorov — ведущий редактор журнала «Хакер», ранее работавший в отрасли кибербеза, руководил командой технических писателей. Так что, феномен хаброблога и хабрааудитории для нас не в новинку. Далее — немного о нашем издательстве.
Привет, Хабр! Меня зовут Дмитрий Тетерюков, и я профессор Центра системного проектирования Сколтеха. Работаю на стыке ИИ и роботов — там, где алгоритмы начинают взаимодействовать с физическим миром и ведут себя «по-человечески».
В этом материале по мотивам моего доклада с True Tech Day я расскажу, как функционируют когнитивные роботы с физическим ИИ (Physical AI). Это направление, которое готовится перевернуть промышленность и стать многомиллиардным рынком. Сюда вкладываются гиганты вроде NVIDIA и Google. Physical AI — это не просто программы, а системы, которые способны мыслить, учиться и действовать в реальном мире. Разберемся, как когнитивные роботы принимают решения, какие вызовы стоят перед разработчиками и почему это самое крутое направление в ИИ прямо сейчас. Поехали!
В предыдущей статье я показал, как настроить GPIO одноплатника на примере Orange Pi Zero H+. Я привел команды для проверки GPIO и написал скрипт gpio_setup.sh
для добавления необходимых прав на GPIO для пользователя. Также разработал класс LedLineGpio
для управления светодиодами и настроил задержку при отправке команд. Кроме того, я изменил механизм их отправки так, чтобы команда не дублировалась при удержании кнопки.
В четвёртой статье я расскажу, как управлять моторами через популярный драйвер двигателей L298N. Также покажу, как подключить этот драйвер к одноплатнику Orange Pi Zero H+. Будет представлен программный код для управления моторами через GPIO, а также код самих команд управления роботом для бэкенд-приложения на FastAPI.
Статья будет полезна любителям DIY-проектов и веб-разработчикам, интересующимся фреймворком FastAPI.
В сегодняшней статье расскажу, как на стенде измеряется угол, чем обеспечивается защита от дурака, и как мне помог ChatGPT.
Предыстория вопроса. Знакомство с китайской компанией Dobot началось год назад с проекта «Кубики».
Для проекта требовался небольшой недорогой механизм, способный строить башню из кубиков.
Исследование тематических ресурсов мне удалось составить небольшой перечень возможных конструкций. Так же был найден интересный ресурс на сайте МФТИ — лабораторная работа «Робот строит башню».
В современном мире складская логистика играет ключевую роль в обеспечении бесперебойной работы цепочек поставок. Оптимизация и повышение эффективности работы склада становятся приоритетной задачей для бизнеса, стремящегося к сокращению затрат и повышению конкурентоспособности. При этом, все больше внимания со временем начинает уделяться не только производительности и своевременности обработки грузов, но и качеству обеспечения процесса обработки и транспортировки грузов.
18 марта 2025 года практически незамеченным прошло одно печальное событие — в преклонном возрасте 44 лет скончался бонобо Канзи. Это был достоверно самый выдающийся ум из представителей своего вида. Один из моих первых постов на Хабре был посвящён этому выдающемуся примату, и прожитая им феноменальная жизнь интересовала меня как модель существования одинокого человека (впрочем, у Канзи была семья) в кругу высокоразвитых гуманоидов, интеллект которых остаётся для этой особи непостижимым и недостижимым. Размышляя о Канзи, я опять задумался, что буквально по пальцам можно пересчитать удачные фантастические сюжеты, в которых человек приобретает суперинтеллект и не знает, что с ним делать, либо (фабула обязывает) страдает от такого буста. Корифеи жанра наверняка вспомнят какие-то сюжеты кроме «Газонокосильщика» и «Цветов для Элджернона». Но в настоящее время, когда имплантаты Neuralink уверенно вышли в продакшен, аппаратное усиление мозга без всякой фармацевтики уже замаячило на горизонте, о чём и поговорим под катом.
Тема спасения альпинистов захватила интернет в последний месяц. Спасатели рискуют своей жизнью, но во многих случаях эвакуировать людей с больших высот существующими способами невозможно.
Я начинаю серию статей о Visual SLAM. Я давно хотел разобраться в этой непростой теме и решил что будет полезно параллельно делиться информацией с коммюнити робототехников.
В этой серии статей я буду рассказывать об основных механизмах работы VSLAM без глубокого погружения в низкоуровневые детали. Для любопытных читателей я буду давать ссылки на полезные материалы где можно ознакомиться с темой более детально. Моей целью является дать читателю общее понимание работы визуального SLAM. Также я буду рассматривать популярные алгоритмы VSLAM и расскажу какие пакеты для VSLAM доступны в платформе для разработки робототехники ROS 2.
В первой статье мы познакомимся с визуальным SLAM в общих чертах с точки зрения его применения в робототехнике. Робот должен выполнять некоторые специфические задачи, например доставку грузов, чистку тротуаров, дезинфекцию воздуха (в больнице). В большинстве случаев для выполнения таких задач роботу требуется понимать текущее положение в пространстве и быстро перемещаться в целевую точку. Чаще всего окружающее пространство в котором оперирует робот представляет собой довольно сложную среду со множеством объектов (часть из которых постоянно перемещаются). Для эффективного перемещения по такой среде роботу нужно иметь карту пространства в некотором удобном формате.
Для построения и локализации на такой карте используется SLAM. Суть SLAM заключается в том что робот перемещается в пространстве и параллельно строит карту местности.
Существует несколько разных типов SLAM которые классифицируются в зависимости от типа сенсоров, которые используются для получения данных об окружающей среде. [ Например, для получения сенсорных данных используются ]
Мы будем рассматривать только визуальный SLAM. Это такой вид SLAM, где в качестве источника сенсорных данных используется камера (монокулярная, стерео или RGB‑D).
Существует несколько видов Визуального SLAM. [ написать какие видв Visual SLAM (monocular, visual + IMU etc) ]
Привет, Хабр! В прошлый раз я писал об эволюции роботов-пылесосов: мы отследили их путь от обычного «глотателя пыли» на колесиках до умной системы. Сегодня предлагаю узнать, как ваш домашний помощник ориентируется в пространстве. Разберемся, как устроено «зрение» робота, что за сенсоры и алгоритмы помогают ему действовать. Заодно обсудим, что ждет нас в будущем — от миниатюрных лидаров до адаптивных систем, заимствованных у беспилотных автомобилей.
Для руководителей логистических служб, IT-директоров и владельцев складских комплексов
В 2018 году у меня возникла необходимость ознакомиться с передовыми логистическими практиками по обработке овощей и фруктов. Сразу несколько моих знакомых загорелись идеями по организации «логистического оператора нового уровня», в связи с чем мы целой организованной группой направились в Нидерланды, где уже много лет работал однокурсник одного из знакомых. Нам была обещана экскурсия с полным погружением «от фермы до прилавка», и обещание было сдержано. Однако, посещая склад за складом, мы все больше недоумевали: где же роботы? Где максимальная автоматизация? Складе уже эдак на шестом‑седьмом, куда мы приехали под обещание, что нам — наконец — покажут полностью роботизированный склад, мы не выдержали, и «приперли к стенке» нашего гида: «Где? Где мега‑технологии?». Тот усмехнулся, вывел нас во двор, и ткнул пальцем в явно давно не используемое здание неподалеку: «Вот!».