На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)
Думаю тут дело не в том, что нет, а в целесообразности. Это простой сервер, ему ненужно крутить локальную LLM или рендерить. Поэтому смартфона с потреблением в несколько ватт энергии, не гудящего кулерами, и стабильно работающего длительное время с отсутствием тепловыделения достаточно. Как бонус: реализованные кодеки, шумодав, отличная камера в случае использования в качестве IP видеонаблюдения
UPD (21.04.2026): Режим «Инженера», прецизионное зрение и вайбкодинг
С момента публикации в проект добавлено несколько архитектурных изменений.
🧠 1. Разделение на «Пилота» и «Инженера»
Агент теперь работает в двух режимах, переключаясь по ключевым словам или командам:
· Пилот (локальная Vikhr или облачная YandexGPT): управление роботом в реальном времени, опора на сенсоры. · Инженер (облачная YandexGPT): изолированная сессия для правки кода и конфигов. Не видит поток сенсоров, но имеет доступ к файловой системе проекта, поиску в интернете и выполнению кода в песочнице.
👁️ 2. Прецизионный режим VLM и инструмент focus_on
VLM научилась фокусироваться на конкретном объекте. Новый инструмент focus_on(target) возвращает смещение в градусах, дистанцию и уверенность. Пригодится для «follow me», возврата на док-станцию по QR-коду или будущего захвата манипулятором.
☁️ 3. YandexGPT Client: стриминг и глубокий поиск
Облачный клиент обновлён:
· Потоковая генерация — позволяет писать длинный код без обрезания по токенам. · search_and_summarize — поиск в интернете с развёрнутым ответом (например, «найди драйвер ROS и адаптируй»).
Мои устройства сами отслеживают уровень заряда через GetBatteryStatus, если меньше 20% - подключается зарядка от бортового АКБ через DC/DC, заряжается до 80%, это безопасный режим работы смартфонных АКБ, в крайнем случае можно заменить штатную пластину АКБ стандартной банкой, сохранив штатный драйвер заряда, это для совсем уж мертвых АКБ
Постоянно использую старые смартфоны вместо всяких там Raspberry PI в своих проектах, и часто день заморачиваться с root особенно для простых устройств, а termux в исходном виде очень ограничен. Спасибо!
· VLADatasetCollector — во время работы робота автоматический сбор пресетов для обучения Multi-Sensor VLA (кадры камеры + семантика VLM + лидар + одометрия + reasoning + веса сенсоров). Формат совместим с LeRobot и Open X-Embodiment. · Файловые инструменты (write_file, read_file, list_files, apply_patch) — робот может сохранять калибровки, заметки и конфиги между сессиями. · CodeExecutionTool — безопасное выполнение Python-кода для самокалибровки и экспериментов.
Всё опционально, ядро не перегружено. Кому нужно — подключат за 15 минут.
Впечатляющая работа! Очень ценно, что вы честно признаёте ограничения Behavior Cloning и добавили RL-фазу. Это реально работает на длинных горизонтах. JPM для точного позиционирования — тоже сильное решение. Ждём продолжения
Чтож, в последнее время мне приходится чаще… любом случае на Github все файлы проекта очень подробно задокументированы, разобраться не составит труда, если нужны чертежи для лазерной резки, смета компонентов и т.д. именно нашей платформы - пишите
Отличный кейс! Мы в OpenGrall идём похожим путём: LLM как стратег, готовое тело как исполнитель. Но добавляем слой безопасности и SensorMemory для асинхронной работы сенсоров. Если интересно — github.com/Ferum93/OpenGrall
Перепроверю после работы (вечером) на самом деле подойдёт любая дообученная на русском языке, запускаемая через Ollama, главное чтобы "железо" осилило адекватную скорость генерации, JSON - нативный язык для любой LLM. Нужно лишь изменить модель в конфиге.
З.Ы. возможно Вы подберёте ещё более подходящую модель, (рекомендую попробовать gemma, qwen, QVikhr-2.5-1.5B-Instruct-r)
Если Вы про военное применение - там ещё поле не паханое. Страшно представить что будет если реализовать даже известные мне технологии. Но мы здесь делаем мирных роботов)
Спасибо! Ради таких комментариев и решил всё это публиковать. Честно скажу: самому страшно — ИИ-агент, который сейчас пишем, по сложности уже переплюнул весь проект. Черновик есть, но я там пока ничего не понимаю, кода в разы больше, чем во всём роботе. Тестировать будем, когда переедем на ESP32 и BLE. А пока жду доставку и параллельно прорабатываю железо новой платформы, едут моторы от гириков, линейные приводы, потшипники и алюминий, всегда на связи)
SLAM и Nav — просто примеры, не суть. Мысль не в том, чтобы отменить ROS «уже сегодня» или запретить его использовать. Просто теперь будут появляться решения, которые делают то же самое, но иначе — без жёсткой привязки к ROS как к единственному центру. Появятся порты лучших реализаций необходимого минимума или вовсе новая архитектура. Как Linux, Windows и macOS спокойно живут рядом — каждый под свои задачи. Выбор становится шире, и это нормально, что окажется эффективнее и масштабные покажет время
Вы правы: ROS не запрещает создавать агентные системы, ROS 2 активно развивается и.к. десятилетия специально под него пилили софт и моментально отказаться от того же качественного SLAM, выверенной асинхронности - значит начать "изобретать велосипед". Вопрос не в том, что на ROS нельзя построить такого робота, а в том, что мышление разработчика перестаёт быть завязано на ROS. Раньше, чтобы научить робота новому действию, ты писал новую ноду. Теперь ты описываешь действие словами, LLM его интерпретирует, а ROS (или что-то другое) просто исполняет. Моя мысль: ROS становится «транспортным слоем», а не архитектурным центром. Эпоха ROS как главного способа думать о роботах уходит. Но как инструмент — конечно, останется.
Спасибо за комментарий, согласен, ROS — мощный инструмент, и на нём можно собрать что угодно, включая агентные системы. Моя мысль скорее про то, что центр тяжести смещается: раньше разработчик вручную описывал поведение через ноды, а теперь это будет делать LLM, а ROS становится лишь транспортом. Как ассемблер — он никуда не делся, но мало кто пишет на нём бизнес-логику. Так и здесь: эпоха ROS как основного способа мышления уходит, уступая место агентным архитектурам. Но как инструмент — конечно, останется. Всё-таки десятки лет эта среда "затачивалась" под робототехнику
Это колоссальные объемы текста, а окна ИИ не приспособлены для удобной навигации (во всяком случае со смартфона)
Вы всёравно не поймёте ничего т.к. нужно мониторить все окна в реальном времени чтобы понять что там происходит, из какого окна данные в какое перетекают и где происходят изменения, а окна тестирования я удаляю после результата.
Единственное что я могу предложить: ссылка на очень раннюю версию с коротким диалогом где ещё небыло разделения на функциональные окна:
На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)
Думаю тут дело не в том, что нет, а в целесообразности. Это простой сервер, ему ненужно крутить локальную LLM или рендерить. Поэтому смартфона с потреблением в несколько ватт энергии, не гудящего кулерами, и стабильно работающего длительное время с отсутствием тепловыделения достаточно. Как бонус: реализованные кодеки, шумодав, отличная камера в случае использования в качестве IP видеонаблюдения
Проблема в том, что это не может быть "универсальным" из-за проприетарности драйверов АКБ.
И одновременно с этим решение уже есть, достаточно лишь извлечь плату контроллера АКБ, выбросить (в центр утилизации конечно) литий.
1. заменить его на стандартную банку 18650
2 подвести стабильные 3.7 вольта
Старые смартфоны за частую гораздо лучше профильных edge устройств и всяческих "мини ПК", я использовал вообще динозавра в https://habr.com/p/1007546/
Но даже это было лучше чем распиаренный Raspberry
UPD (21.04.2026): Режим «Инженера», прецизионное зрение и вайбкодинг
С момента публикации в проект добавлено несколько архитектурных изменений.
🧠 1. Разделение на «Пилота» и «Инженера»
Агент теперь работает в двух режимах, переключаясь по ключевым словам или командам:
· Пилот (локальная Vikhr или облачная YandexGPT): управление роботом в реальном времени, опора на сенсоры. · Инженер (облачная YandexGPT): изолированная сессия для правки кода и конфигов. Не видит поток сенсоров, но имеет доступ к файловой системе проекта, поиску в интернете и выполнению кода в песочнице.
👁️ 2. Прецизионный режим VLM и инструмент focus_on
VLM научилась фокусироваться на конкретном объекте. Новый инструмент focus_on(target) возвращает смещение в градусах, дистанцию и уверенность. Пригодится для «follow me», возврата на док-станцию по QR-коду или будущего захвата манипулятором.
☁️ 3. YandexGPT Client: стриминг и глубокий поиск
Облачный клиент обновлён:
· Потоковая генерация — позволяет писать длинный код без обрезания по токенам. · search_and_summarize — поиск в интернете с развёрнутым ответом (например, «найди драйвер ROS и адаптируй»).
📄 4. GRALL_SELF.md и вайбкодинг
В корне проекта лежит GRALL_SELF.md — описание платформы, сенсоров и доступных команд. Теперь добавление нового железа выглядит так:
Человек говорит: «Найди реализацию манипулятора в ROS и адаптируй под нашу платформу».
Агент переключается в режим Инженера.
YandexGPT ищет информацию, читает GRALL_SELF.md и через потоковую генерацию пишет код (новые файлы, патчи в конфиг).
Инженер сообщает: «Готово, перезапустите агента».
Весь процесс виден в дашборде и не блокирует работу робота.
💾 5. Автоматические бэкапы
Инструменты write_file и apply_patch перед изменением создают копию в .backups. Откат всегда возможен.
Мои устройства сами отслеживают уровень заряда через GetBatteryStatus, если меньше 20% - подключается зарядка от бортового АКБ через DC/DC, заряжается до 80%, это безопасный режим работы смартфонных АКБ, в крайнем случае можно заменить штатную пластину АКБ стандартной банкой, сохранив штатный драйвер заряда, это для совсем уж мертвых АКБ
Постоянно использую старые смартфоны вместо всяких там Raspberry PI в своих проектах, и часто день заморачиваться с root особенно для простых устройств, а termux в исходном виде очень ограничен. Спасибо!
UPD (17.04.2026) В репозиторий добавлены:
· VLADatasetCollector — во время работы робота автоматический сбор пресетов для обучения Multi-Sensor VLA (кадры камеры + семантика VLM + лидар + одометрия + reasoning + веса сенсоров). Формат совместим с LeRobot и Open X-Embodiment. · Файловые инструменты (write_file, read_file, list_files, apply_patch) — робот может сохранять калибровки, заметки и конфиги между сессиями. · CodeExecutionTool — безопасное выполнение Python-кода для самокалибровки и экспериментов.
Всё опционально, ядро не перегружено. Кому нужно — подключат за 15 минут.
Впечатляющая работа! Очень ценно, что вы честно признаёте ограничения Behavior Cloning и добавили RL-фазу. Это реально работает на длинных горизонтах. JPM для точного позиционирования — тоже сильное решение. Ждём продолжения
Чтож, в последнее время мне приходится чаще… любом случае на Github все файлы проекта очень подробно задокументированы, разобраться не составит труда, если нужны чертежи для лазерной резки, смета компонентов и т.д. именно нашей платформы - пишите
Отличный кейс! Мы в OpenGrall идём похожим путём: LLM как стратег, готовое тело как исполнитель. Но добавляем слой безопасности и SensorMemory для асинхронной работы сенсоров. Если интересно — github.com/Ferum93/OpenGrall
Отлично, приглашаю к обсуждению https://vk.ru/id1068211259
Касательно проекта? Интересны Ваши мысли/дополнения
Перепроверю после работы (вечером) на самом деле подойдёт любая дообученная на русском языке, запускаемая через Ollama, главное чтобы "железо" осилило адекватную скорость генерации, JSON - нативный язык для любой LLM. Нужно лишь изменить модель в конфиге.
З.Ы. возможно Вы подберёте ещё более подходящую модель, (рекомендую попробовать gemma, qwen, QVikhr-2.5-1.5B-Instruct-r)
Если Вы про военное применение - там ещё поле не паханое. Страшно представить что будет если реализовать даже известные мне технологии. Но мы здесь делаем мирных роботов)
Спасибо! Ради таких комментариев и решил всё это публиковать. Честно скажу: самому страшно — ИИ-агент, который сейчас пишем, по сложности уже переплюнул весь проект. Черновик есть, но я там пока ничего не понимаю, кода в разы больше, чем во всём роботе. Тестировать будем, когда переедем на ESP32 и BLE. А пока жду доставку и параллельно прорабатываю железо новой платформы, едут моторы от гириков, линейные приводы, потшипники и алюминий, всегда на связи)
SLAM и Nav — просто примеры, не суть. Мысль не в том, чтобы отменить ROS «уже сегодня» или запретить его использовать. Просто теперь будут появляться решения, которые делают то же самое, но иначе — без жёсткой привязки к ROS как к единственному центру. Появятся порты лучших реализаций необходимого минимума или вовсе новая архитектура. Как Linux, Windows и macOS спокойно живут рядом — каждый под свои задачи. Выбор становится шире, и это нормально, что окажется эффективнее и масштабные покажет время
Вы правы: ROS не запрещает создавать агентные системы, ROS 2 активно развивается и.к. десятилетия специально под него пилили софт и моментально отказаться от того же качественного SLAM, выверенной асинхронности - значит начать "изобретать велосипед". Вопрос не в том, что на ROS нельзя построить такого робота, а в том, что мышление разработчика перестаёт быть завязано на ROS. Раньше, чтобы научить робота новому действию, ты писал новую ноду. Теперь ты описываешь действие словами, LLM его интерпретирует, а ROS (или что-то другое) просто исполняет. Моя мысль: ROS становится «транспортным слоем», а не архитектурным центром. Эпоха ROS как главного способа думать о роботах уходит. Но как инструмент — конечно, останется.
Спасибо за комментарий, согласен, ROS — мощный инструмент, и на нём можно собрать что угодно, включая агентные системы. Моя мысль скорее про то, что центр тяжести смещается: раньше разработчик вручную описывал поведение через ноды, а теперь это будет делать LLM, а ROS становится лишь транспортом. Как ассемблер — он никуда не делся, но мало кто пишет на нём бизнес-логику. Так и здесь: эпоха ROS как основного способа мышления уходит, уступая место агентным архитектурам. Но как инструмент — конечно, останется. Всё-таки десятки лет эта среда "затачивалась" под робототехнику
Это не представляется возможным:
Это колоссальные объемы текста, а окна ИИ не приспособлены для удобной навигации (во всяком случае со смартфона)
Вы всёравно не поймёте ничего т.к. нужно мониторить все окна в реальном времени чтобы понять что там происходит, из какого окна данные в какое перетекают и где происходят изменения, а окна тестирования я удаляю после результата.
Единственное что я могу предложить: ссылка на очень раннюю версию с коротким диалогом где ещё небыло разделения на функциональные окна:
https://chat.deepseek.com/share/adq2obhj3apkj7y7im