Pull to refresh
16K+
14
6,2
Rating
14
Subscribers
Send message

Тут и да и нет. Я например использую ИИ в качестве диетолога. Не потому что они умнее, а потому что контекст решает всё. Фитнес это не про ЗОЖ, это про индустрию. И от "живых" я слышал только: ты обязательно должен завтракать, 5 приемов пищи, энергетики? Забудь... Об этом же и все эти "идеальные приложения для идеальных людей" на которые я забивал через неделю. "Для ИИ это лишь вводные данные: ок, не завтракаем, тогда нужно углеводы получать только сложными чтобы редких приемов пищи хватало на перекрытие. Ок, никаких 5 приёмов, максимум прот перекус + питьё. Энергетики? Это плохо, но если ты не готов отказаться от этого тогда мы снижаем гликемический индекс остальной пищи, пей расстягивая 1 банку до обеда во избежание скачков, если сорвешься на вторую - бери без сахара" он раскинет не только БЖУ, но и минералы, витамины и т.д. наблюдая за общим паттернов пищи... И да, такого индивидуального подхода совершенно бесплатно фактически нет

Мы говорим об одном и том же разными тезисами: радикализм в любом векторе - утопия. Не нужно плыть только по течению или только против, нужно руководствоваться здравым смыслом, это и есть наше, незаменимое, человеческое. И в этом мнении мы ушли далеко от “банить всех вайбкодеров на хабре”… Да, тракторы детерминированы и эффективны сейчас, но на заре их КПД был сомнителен + потребность в специалистах и инфраструктуре. Это был довольно рискованный и не столь очевидный шаг. Но если не нравится аналогия с трактором, история помнит не мало подходящих примеров: “индустриализация vs ремесленничество” "скрипторы vs книгопечатание", "плёночная vs цифровая фотография"

И да, может показаться что я поддерживаю повальную интеграцию ИИ везде где только можно, но это не так. Изучать - да. Но не слепо следовать хайповым трендам. Из недавнего: хайп вокруг OpenClaw - агента, который предоставляет “руки” окну чата LLM, забавная игрушка подумал я, но в плане безопасности данных там не то, чтобы брешь, там вселенская чёрная дыра. Но вот прошло не больше 2 месяцев и люди уже интегрируют OpenClaw в управление бизнесом!!!?? Стал ли он заметно безопаснее за это время? Уж точно нет, сама архитектура этого не позволяет, напиши ему в мессенджер и он сольёт тебе всё что угодно. Но волна двигает людей “а мы будем первыми кто это сделает”, и это чувство порой сильнее здравого смысла

Действительно именно человек сделал возможным весь технологический прогресс и обесценивать человеческое - копать под себя же.

Лично моё мнение - тут важна адаптация, разработчики способные лишь писать функции действительно уйдут в историю. Те кто мыслит архитектурно - будет писать функции с помощью ИИ. Страх перед новым — естественен. Проблема не в технологии. Проблема, когда страх заставляет отрицать реальность. Трактор не убил земледелие. Он перевёл пахарей в трактористов и фермеров. Были те, кто бежал позади с вилами вереща "только люди пашут с душой..." Они ушли в историю. Другие же - получили небывалые ранее возможности.

Если ты можешь предложить разработке больше чем просто написание функций и синтаксис - то ИИ будет в твоих руках расширителем горизонта.

Я искренне завидую людям способным видеть места критических ошибок в коде ИИ, мне приходится использовать новые окна в качестве ревьюрера, и то, это не спасает от ошибок в компиляции и работе. Про некоторые аспекты (безопасность данных, оптимизация) я и вовсе стараюсь не думать т.к. "просто работает" это максимально возможная цель

Спасибо, что уточнил. Я тоже против плохого контента. Но когда под “мерзкими чертами” оказываются все, кто пытается что-то сделать и выложить в открытый доступ — мы не стимулируем качество, мы убиваем попытки. Проблема как раз в том, как отделить зёрна от плевел. Будет глупо игнорировать новые инструменты и связанный с ним контент полностью. Таким образом мы рискуем оказаться за бортом прогресса, сжигая Галилео Галилея...

Допустим, убрали всех вайбкодеров. Что изменится? Посмотрите на ленту хабра прямо сейчас: Корпоративные блоги с рекламой, дайджесты англоязычных статей и посты про выгорание и мнения останутся, а это почти 70% текущего хабра. Вайбкодеры хотя бы пытаются решать реальные проблемы.

Почему у нас не придумали свой "OpenClaw"? Потому что его создатель по сути был альтруистом, выложив все наработки в OpenSource, комьюнити подхватило и проект выстрелил. У нас же как правило смотрят в сторону монетизации и коммерческой тайны даже ещё ничего не сделав. Потому OpenSource пуст.

Я тот самый «вайб-кодер», автомаляр, который три месяца назад не мог отличить C++ от Python и «заново переоткрыл Америку», узнав, что DeepSeek может написать простенькую прошивку для МК самостоятельно. Мы быстро сверстали архитектуру, неделю отлаживали, и я написал ту самую статью «Революция…», однако сразу же обозначил ограничения и подчеркнул, что без реальных разработчиков не будет инноваций.

Почему я сделал это? Потому что для меня это стало открытием, которое даёт возможность мне и таким как я реализовать задуманное. И если я не слышал об этом раньше — возможно, есть люди, которые ещё не знают о таком подходе. Вы крутитесь в этой среде, и подобные статьи мелькают перед глазами всё время. А для кого-то это входной билет.

Так почему же я не остановился? Меня удручает текущая ситуация в робототехнике RU-сегмента. Посмотрите хаб сами: ИТ-гиганты бравируют проприетарными VLA-моделями, корреспонденты освещают новости, и DIY-эксперименты на уровне Arduino/Raspberry Pi — проекты на коленке. Всё, что могут сейчас энтузиасты, сравнимо с индейцами против огнестрела VLA-гигантов.

В поисках решений я стал углубляться в ROS 2, который тоже уже динозавр и предлагает в основном хоть и детерминированные, но сильно уступающие алгоритмы. Недавно пришлось выбросить 80% логики из Nav 2 Stack — просто потому что VLM выполняет те же задачи с большей точностью. Я решил попытаться сгладить этот разрыв. Мы написали фреймворк: агентную архитектуру, опирающуюся на LLM/VLM-связку с «железными» гарантиями безопасности. Подробно задокументировали для дальнейших правок — возможно, сторонних разработчиков. Предусмотрели сбор датасета для обучения той же VLA или fine-tune маленьких LLM. Но это уже тонкости, коих ещё очень много.

Ключевое: я понимаю, что в одиночку мне не построить этот мост — даже при помощи ИИ. Но это может стать концепт-идеей для схожих реализаций от профессиональных разработчиков. Моя единственная цель — популяризация робототехники в РУ-сегменте. И если эта концепция вдохновит хотя бы одного разработчика на открытый проект - я свою задачу выполнил

Спасибо за статью. Не плохо было бы осветить ещё "системный промпт" доступный на локальных моделях и некоторых API. Модель гарантированно будет применять эту инструкцию к каждому ответу вне зависимости от длины контекста

Идеально! STM32 с "реальным временем" + NPU блок, достаточный для запуска VLM/LLM до 3В параметров на запредельной скорости. Люди говорящие что "нормальная VLA не полетит" - это вопрос оптимизации. Если вы обучите VLA на пресетах к этому же железу - всё будет работать безупречно. Да, это не Jetson Orin, но если цена соответствует - большинство задач эта сборка закрывает

Спасибо за статью! Какраз сейчас работаю над архитектурой где LLM получает такого рода промпты:

Ты робот д51×ш32×в37см 0°=↑=прямо Отвечай JSON: {“action”:“move”,“params”:{“l”:300,“r”:300},“reasoning”:“…”} action: move,stop,light,say,talk,ask,remember,find,search,plan,battery params: move{l,r}, light{s}, say{t}, talk{t}, ask{q}, remember{n}, find{n}, search{q}, plan{g}

ТЕКУЩАЯ СИТУАЦИЯ: Время: 1712345720.45 Текущее намерение: движение вперёд

ДАННЫЕ СЕНСОРОВ (по важности): • lidar: front=0.4м, front_left=0.5м, left=2.0м, back_left=5.0м, back=6.0м, back_right=5.5м, right=2.8м, front_right=2.9м | ближе 80см: -5°;15° ~40см, 0.6м, v=1.2м/с ↓ [вес: 0.95, возраст: 0.02с] • vlm: сцена: коридор, объекты: человек 1.2м, путь: free [вес: 0.65, возраст: 0.70с] • odometry: vл=0.3, vп=0.3, курс(global, 0°=nord)=0° [вес: 0.68, возраст: 0.04с]

  • Отвечай JSON: {“action”:“move”,“params”:{“l”:300,“r”:300},“reasoning”:“…”} action: move,stop,light,say,talk,ask,remember,find,search,plan,battery params: move{l,r}, light{s}, say{t}, talk{t}, ask{q}, remember{n}, find{n}, search{q}, plan{g}

Доступно: move_forward, move_backward, turn_left, turn_right, stop, set_light, speak, speak_to_human, ask_human, remember_object, find_object, search_by_text, compose_plan, get_battery

Обидно что подобные статьи остаются без должного внимания и обсуждений в RU комьюнити...

Хотелось бы больше информации каким моделям можно задавать system prompt которого они будут придерживаться весь диалог, про RAG... Но и тут хлеба хватает. Спасибо за Ваш труд!

Звучит не плохо, но снова делается ставка на VLA, которые не "блещут интеллектом", наоборот, VLA прекрасные исполнители высокоуровневых решений. Радует что люди стали понимать - необходим не sim-to-real, а real-to-sim. Но на деле выглядит ещё очень сыро, во всяком случае в публичном пространстве. Я считаю что подобный проект может взлететь какраз только при всеобщей вовлечённости. У меня есть видение как это сделать, но нет ресурсов, остаётся наблюдать за успехами сообщества

На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)

Думаю тут дело не в том, что нет, а в целесообразности. Это простой сервер, ему ненужно крутить локальную LLM или рендерить. Поэтому смартфона с потреблением в несколько ватт энергии, не гудящего кулерами, и стабильно работающего длительное время с отсутствием тепловыделения достаточно. Как бонус: реализованные кодеки, шумодав, отличная камера в случае использования в качестве IP видеонаблюдения

Проблема в том, что это не может быть "универсальным" из-за проприетарности драйверов АКБ.

И одновременно с этим решение уже есть, достаточно лишь извлечь плату контроллера АКБ, выбросить (в центр утилизации конечно) литий.

1. заменить его на стандартную банку 18650

2 подвести стабильные 3.7 вольта

Старые смартфоны за частую гораздо лучше профильных edge устройств и всяческих "мини ПК", я использовал вообще динозавра в https://habr.com/p/1007546/

Но даже это было лучше чем распиаренный Raspberry

UPD (21.04.2026): Режим «Инженера», прецизионное зрение и вайбкодинг

С момента публикации в проект добавлено несколько архитектурных изменений.

🧠 1. Разделение на «Пилота» и «Инженера»

Агент теперь работает в двух режимах, переключаясь по ключевым словам или командам:

· Пилот (локальная Vikhr или облачная YandexGPT): управление роботом в реальном времени, опора на сенсоры. · Инженер (облачная YandexGPT): изолированная сессия для правки кода и конфигов. Не видит поток сенсоров, но имеет доступ к файловой системе проекта, поиску в интернете и выполнению кода в песочнице.

👁️ 2. Прецизионный режим VLM и инструмент focus_on

VLM научилась фокусироваться на конкретном объекте. Новый инструмент focus_on(target) возвращает смещение в градусах, дистанцию и уверенность. Пригодится для «follow me», возврата на док-станцию по QR-коду или будущего захвата манипулятором.

☁️ 3. YandexGPT Client: стриминг и глубокий поиск

Облачный клиент обновлён:

· Потоковая генерация — позволяет писать длинный код без обрезания по токенам. · search_and_summarize — поиск в интернете с развёрнутым ответом (например, «найди драйвер ROS и адаптируй»).

📄 4. GRALL_SELF.md и вайбкодинг

В корне проекта лежит GRALL_SELF.md — описание платформы, сенсоров и доступных команд. Теперь добавление нового железа выглядит так:

  1. Человек говорит: «Найди реализацию манипулятора в ROS и адаптируй под нашу платформу».

  2. Агент переключается в режим Инженера.

  3. YandexGPT ищет информацию, читает GRALL_SELF.md и через потоковую генерацию пишет код (новые файлы, патчи в конфиг).

  4. Инженер сообщает: «Готово, перезапустите агента».

Весь процесс виден в дашборде и не блокирует работу робота.

💾 5. Автоматические бэкапы

Инструменты write_file и apply_patch перед изменением создают копию в .backups. Откат всегда возможен.

Мои устройства сами отслеживают уровень заряда через GetBatteryStatus, если меньше 20% - подключается зарядка от бортового АКБ через DC/DC, заряжается до 80%, это безопасный режим работы смартфонных АКБ, в крайнем случае можно заменить штатную пластину АКБ стандартной банкой, сохранив штатный драйвер заряда, это для совсем уж мертвых АКБ

Постоянно использую старые смартфоны вместо всяких там Raspberry PI в своих проектах, и часто день заморачиваться с root особенно для простых устройств, а termux в исходном виде очень ограничен. Спасибо!

UPD (17.04.2026) В репозиторий добавлены:

· VLADatasetCollector — во время работы робота автоматический сбор пресетов для обучения Multi-Sensor VLA (кадры камеры + семантика VLM + лидар + одометрия + reasoning + веса сенсоров). Формат совместим с LeRobot и Open X-Embodiment. · Файловые инструменты (write_file, read_file, list_files, apply_patch) — робот может сохранять калибровки, заметки и конфиги между сессиями. · CodeExecutionTool — безопасное выполнение Python-кода для самокалибровки и экспериментов.

Всё опционально, ядро не перегружено. Кому нужно — подключат за 15 минут.

Впечатляющая работа! Очень ценно, что вы честно признаёте ограничения Behavior Cloning и добавили RL-фазу. Это реально работает на длинных горизонтах. JPM для точного позиционирования — тоже сильное решение. Ждём продолжения

Information

Rating
994-th
Registered
Activity

Specialization

Зерокодер
Стажёр
From 150,000 ₽
Управление проектами
Управление разработкой
Автоматизация процессов
Разработка ТЗ
Руководство стартапом
Стратегическое планирование