Привет, Хабр! Мы - команда NIKTA.AI, и на конференции ЦИПР2025 мы решили не просто участвовать, а задать жару с нашим роботом-крабом, управляемым через Visual Language Model (VLM). Пока другие команды щелкали пультами, наш краб самостоятельно принимал решения, осматривал стенд и искал объекты. Как мы это сделали за полтора месяца? Рассказываем!

Перед нами стояла задача: выделиться и удивить
Нашей целью было создать робота, который не просто выполняет команды, а сам думает и действует в реальном времени. Пульты - это прошлый век, и мы хотели показать, что AI способен управлять роботом автономно. Времени было мало - всего полтора месяца, поэтому мы выбрали готовую платформу робота с поддержкой ROS (Robot Operating System), чтобы не писать низкоуровневое управление с нуля.
Что было в коробке?
Когда робот-краб приехал, мы столкнулись с классикой: китайская документация и другие китайские сюрпризы... Разбирались, как работают сервоприводы, датчики и встроенные системы навигации. ROS отвечал за среднеуровневое управление: движение вперед-назад, влево-вправо, получение изображений с камеры и базовую навигацию. Наша задача - добавить высокоуровневое управление через VLM, чтобы робот мог:
Обрабатывать изображения с камеры.
Принимать решения на основе увиденного.
Выполнять команды, не прописанные заранее.
Как работает наш AI-краб?
Мы интегрировали VLM (Visual Language Model), которая анализирует изображение с камеры и решает, что делать дальше. Например:
Движение: робот выполняет простые команды (вперед, назад, поворот) с заданной величиной. VLM разбивает сложные задачи на подзадачи и отправляет команды по очереди.
Поиск объектов: краб осматривает стенд, передает изображение в VLM, а та определяет, есть ли нужный объект, и описывает его.
Звучит круто, но были и подводные камни...
Проблемы и как мы их решали
Задержка обработки изображений. Изначально мы запускали VLM локально на компьютере, подключенном к роботу. Результат? Задержка в несколько минут на обработку одного кадра. Для реального времени это провал. Решение: мы ограничили действия робота базовыми командами (вперед-назад, повороты) и добавили второй модем для подключения к облачной VLM. Это сократило задержку - уже можно работать!
Навигация и датчики. Датчики робота были, скажем так, не идеальны. Навигация иногда сбоила, а VLM не могла точно определить положение объекта в пространстве (ей нужны координаты, а не просто "вот там стул"). Изначально мы хотели, чтобы краб сам подходил к объекту, но из-за задержек и ограничений датчиков пришлось упростить задачу до поиска и описания.
Автономность. Мы мечтали, чтобы краб сам шел к цели, центрируя объект в кадре камеры. Но для этого нужна высокая скорость обработки изображений, которой мы не добились на локальном оборудовании. Это задача на будущее.
Что получилось?
На ЦИПР2025 наш робот-краб стал звездой! Пока другие участники жали кнопки на пультах, наш AI самостоятельно осматривал стенд, находил объекты и выполнял команды. Да, он пока не ходит к цели сам, но уже умеет:
Выполнять простые команды.
Искать и описывать объекты в реальном времени.
Работать с облачной VLM, обрабатывая запросы за секунды.
Зрители были в восторге, а мы - в экстазе от того, что успели за полтора месяца!
Что дальше?
Мы уже планируем доработки:
Улучшить навигацию, чтобы краб сам подходил к объектам.
Оптимизировать алгоритмы для работы с локальной VLM (если найдем более мощное железо).
Добавить больше автономности: пусть краб сам решает, как лучше добраться до цели.
Программирование робота-краба для ЦИПР2025 стало вызовом, который мы приняли и преодолели. Куча кофе и момент, когда ты видишь, как твой код оживает в железе. Мы показали, что AI может быть не просто алгоритмом, а настоящим партнером, который выделяет тебя среди толпы.
Как бы вы подошли к задаче управления роботом через VLM? Пишите в комментариях, обсудим! И если хотите узнать больше про наши проекты, заглядывайте на наш сайт NIKTA.AI / телеграм-канал.