Обновить
16K+
14

Пользователь

6,1
Рейтинг
14
Подписчики
Отправить сообщение

Я тот самый «вайб-кодер», автомаляр, который три месяца назад не мог отличить C++ от Python и «заново переоткрыл Америку», узнав, что DeepSeek может написать простенькую прошивку для МК самостоятельно. Мы быстро сверстали архитектуру, неделю отлаживали, и я написал ту самую статью «Революция…», однако сразу же обозначил ограничения и подчеркнул, что без реальных разработчиков не будет инноваций.

Почему я сделал это? Потому что для меня это стало открытием, которое даёт возможность мне и таким как я реализовать задуманное. И если я не слышал об этом раньше — возможно, есть люди, которые ещё не знают о таком подходе. Вы крутитесь в этой среде, и подобные статьи мелькают перед глазами всё время. А для кого-то это входной билет.

Так почему же я не остановился? Меня удручает текущая ситуация в робототехнике RU-сегмента. Посмотрите хаб сами: ИТ-гиганты бравируют проприетарными VLA-моделями, корреспонденты освещают новости, и DIY-эксперименты на уровне Arduino/Raspberry Pi — проекты на коленке. Всё, что могут сейчас энтузиасты, сравнимо с индейцами против огнестрела VLA-гигантов.

В поисках решений я стал углубляться в ROS 2, который тоже уже динозавр и предлагает в основном хоть и детерминированные, но сильно уступающие алгоритмы. Недавно пришлось выбросить 80% логики из Nav 2 Stack — просто потому что VLM выполняет те же задачи с большей точностью. Я решил попытаться сгладить этот разрыв. Мы написали фреймворк: агентную архитектуру, опирающуюся на LLM/VLM-связку с «железными» гарантиями безопасности. Подробно задокументировали для дальнейших правок — возможно, сторонних разработчиков. Предусмотрели сбор датасета для обучения той же VLA или fine-tune маленьких LLM. Но это уже тонкости, коих ещё очень много.

Ключевое: я понимаю, что в одиночку мне не построить этот мост — даже при помощи ИИ. Но это может стать концепт-идеей для схожих реализаций от профессиональных разработчиков. Моя единственная цель — популяризация робототехники в РУ-сегменте. И если эта концепция вдохновит хотя бы одного разработчика на открытый проект - я свою задачу выполнил

Спасибо за статью. Не плохо было бы осветить ещё "системный промпт" доступный на локальных моделях и некоторых API. Модель гарантированно будет применять эту инструкцию к каждому ответу вне зависимости от длины контекста

Идеально! STM32 с "реальным временем" + NPU блок, достаточный для запуска VLM/LLM до 3В параметров на запредельной скорости. Люди говорящие что "нормальная VLA не полетит" - это вопрос оптимизации. Если вы обучите VLA на пресетах к этому же железу - всё будет работать безупречно. Да, это не Jetson Orin, но если цена соответствует - большинство задач эта сборка закрывает

Спасибо за статью! Какраз сейчас работаю над архитектурой где LLM получает такого рода промпты:

Ты робот д51×ш32×в37см 0°=↑=прямо Отвечай JSON: {“action”:“move”,“params”:{“l”:300,“r”:300},“reasoning”:“…”} action: move,stop,light,say,talk,ask,remember,find,search,plan,battery params: move{l,r}, light{s}, say{t}, talk{t}, ask{q}, remember{n}, find{n}, search{q}, plan{g}

ТЕКУЩАЯ СИТУАЦИЯ: Время: 1712345720.45 Текущее намерение: движение вперёд

ДАННЫЕ СЕНСОРОВ (по важности): • lidar: front=0.4м, front_left=0.5м, left=2.0м, back_left=5.0м, back=6.0м, back_right=5.5м, right=2.8м, front_right=2.9м | ближе 80см: -5°;15° ~40см, 0.6м, v=1.2м/с ↓ [вес: 0.95, возраст: 0.02с] • vlm: сцена: коридор, объекты: человек 1.2м, путь: free [вес: 0.65, возраст: 0.70с] • odometry: vл=0.3, vп=0.3, курс(global, 0°=nord)=0° [вес: 0.68, возраст: 0.04с]

  • Отвечай JSON: {“action”:“move”,“params”:{“l”:300,“r”:300},“reasoning”:“…”} action: move,stop,light,say,talk,ask,remember,find,search,plan,battery params: move{l,r}, light{s}, say{t}, talk{t}, ask{q}, remember{n}, find{n}, search{q}, plan{g}

Доступно: move_forward, move_backward, turn_left, turn_right, stop, set_light, speak, speak_to_human, ask_human, remember_object, find_object, search_by_text, compose_plan, get_battery

Обидно что подобные статьи остаются без должного внимания и обсуждений в RU комьюнити...

Хотелось бы больше информации каким моделям можно задавать system prompt которого они будут придерживаться весь диалог, про RAG... Но и тут хлеба хватает. Спасибо за Ваш труд!

Звучит не плохо, но снова делается ставка на VLA, которые не "блещут интеллектом", наоборот, VLA прекрасные исполнители высокоуровневых решений. Радует что люди стали понимать - необходим не sim-to-real, а real-to-sim. Но на деле выглядит ещё очень сыро, во всяком случае в публичном пространстве. Я считаю что подобный проект может взлететь какраз только при всеобщей вовлечённости. У меня есть видение как это сделать, но нет ресурсов, остаётся наблюдать за успехами сообщества

На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)

Думаю тут дело не в том, что нет, а в целесообразности. Это простой сервер, ему ненужно крутить локальную LLM или рендерить. Поэтому смартфона с потреблением в несколько ватт энергии, не гудящего кулерами, и стабильно работающего длительное время с отсутствием тепловыделения достаточно. Как бонус: реализованные кодеки, шумодав, отличная камера в случае использования в качестве IP видеонаблюдения

Проблема в том, что это не может быть "универсальным" из-за проприетарности драйверов АКБ.

И одновременно с этим решение уже есть, достаточно лишь извлечь плату контроллера АКБ, выбросить (в центр утилизации конечно) литий.

1. заменить его на стандартную банку 18650

2 подвести стабильные 3.7 вольта

Старые смартфоны за частую гораздо лучше профильных edge устройств и всяческих "мини ПК", я использовал вообще динозавра в https://habr.com/p/1007546/

Но даже это было лучше чем распиаренный Raspberry

UPD (21.04.2026): Режим «Инженера», прецизионное зрение и вайбкодинг

С момента публикации в проект добавлено несколько архитектурных изменений.

🧠 1. Разделение на «Пилота» и «Инженера»

Агент теперь работает в двух режимах, переключаясь по ключевым словам или командам:

· Пилот (локальная Vikhr или облачная YandexGPT): управление роботом в реальном времени, опора на сенсоры. · Инженер (облачная YandexGPT): изолированная сессия для правки кода и конфигов. Не видит поток сенсоров, но имеет доступ к файловой системе проекта, поиску в интернете и выполнению кода в песочнице.

👁️ 2. Прецизионный режим VLM и инструмент focus_on

VLM научилась фокусироваться на конкретном объекте. Новый инструмент focus_on(target) возвращает смещение в градусах, дистанцию и уверенность. Пригодится для «follow me», возврата на док-станцию по QR-коду или будущего захвата манипулятором.

☁️ 3. YandexGPT Client: стриминг и глубокий поиск

Облачный клиент обновлён:

· Потоковая генерация — позволяет писать длинный код без обрезания по токенам. · search_and_summarize — поиск в интернете с развёрнутым ответом (например, «найди драйвер ROS и адаптируй»).

📄 4. GRALL_SELF.md и вайбкодинг

В корне проекта лежит GRALL_SELF.md — описание платформы, сенсоров и доступных команд. Теперь добавление нового железа выглядит так:

  1. Человек говорит: «Найди реализацию манипулятора в ROS и адаптируй под нашу платформу».

  2. Агент переключается в режим Инженера.

  3. YandexGPT ищет информацию, читает GRALL_SELF.md и через потоковую генерацию пишет код (новые файлы, патчи в конфиг).

  4. Инженер сообщает: «Готово, перезапустите агента».

Весь процесс виден в дашборде и не блокирует работу робота.

💾 5. Автоматические бэкапы

Инструменты write_file и apply_patch перед изменением создают копию в .backups. Откат всегда возможен.

Мои устройства сами отслеживают уровень заряда через GetBatteryStatus, если меньше 20% - подключается зарядка от бортового АКБ через DC/DC, заряжается до 80%, это безопасный режим работы смартфонных АКБ, в крайнем случае можно заменить штатную пластину АКБ стандартной банкой, сохранив штатный драйвер заряда, это для совсем уж мертвых АКБ

Постоянно использую старые смартфоны вместо всяких там Raspberry PI в своих проектах, и часто день заморачиваться с root особенно для простых устройств, а termux в исходном виде очень ограничен. Спасибо!

UPD (17.04.2026) В репозиторий добавлены:

· VLADatasetCollector — во время работы робота автоматический сбор пресетов для обучения Multi-Sensor VLA (кадры камеры + семантика VLM + лидар + одометрия + reasoning + веса сенсоров). Формат совместим с LeRobot и Open X-Embodiment. · Файловые инструменты (write_file, read_file, list_files, apply_patch) — робот может сохранять калибровки, заметки и конфиги между сессиями. · CodeExecutionTool — безопасное выполнение Python-кода для самокалибровки и экспериментов.

Всё опционально, ядро не перегружено. Кому нужно — подключат за 15 минут.

Впечатляющая работа! Очень ценно, что вы честно признаёте ограничения Behavior Cloning и добавили RL-фазу. Это реально работает на длинных горизонтах. JPM для точного позиционирования — тоже сильное решение. Ждём продолжения

Чтож, в последнее время мне приходится чаще… любом случае на Github все файлы проекта очень подробно задокументированы, разобраться не составит труда, если нужны чертежи для лазерной резки, смета компонентов и т.д. именно нашей платформы - пишите

Отличный кейс! Мы в OpenGrall идём похожим путём: LLM как стратег, готовое тело как исполнитель. Но добавляем слой безопасности и SensorMemory для асинхронной работы сенсоров. Если интересно — github.com/Ferum93/OpenGrall

Отлично, приглашаю к обсуждению https://vk.ru/id1068211259

Касательно проекта? Интересны Ваши мысли/дополнения

Перепроверю после работы (вечером) на самом деле подойдёт любая дообученная на русском языке, запускаемая через Ollama, главное чтобы "железо" осилило адекватную скорость генерации, JSON - нативный язык для любой LLM. Нужно лишь изменить модель в конфиге.

З.Ы. возможно Вы подберёте ещё более подходящую модель, (рекомендую попробовать gemma, qwen, QVikhr-2.5-1.5B-Instruct-r)

Если Вы про военное применение - там ещё поле не паханое. Страшно представить что будет если реализовать даже известные мне технологии. Но мы здесь делаем мирных роботов)

Информация

В рейтинге
999-й
Зарегистрирован
Активность

Специализация

Зерокодер
Стажёр
От 150 000 ₽
Управление проектами
Управление разработкой
Автоматизация процессов
Разработка ТЗ
Руководство стартапом
Стратегическое планирование