Как не дальновидно. Когда LLM-ку бустит сверхдержава, даже самая раздутая коммерческая компания очень скоро останется позади. И это уже на пороге, чек обнову V4
Очень "живая" история, неподдельный дух истинного DIY, спасибо. Зацепило что Вы без хейта констатируете: "времена изменились ESP32 и лидары стоят копейки на каждом углу, ИИ пишет код." Это самая здравия позиция на сегодняшний день на мой взгляд...
Увы, но ваша картина мира устарела лет на пять. В “стиралках и холодильниках” уже давно Linux, а не “среда без ОС”. А дроны весь мир (включая вооруженные силы) пытается перевести с детерминированных алгоритмов на TensorFlow Micro и TinyML. И, к сожалению для вашего аргумента, в оборонке это уже реализовали.
LLM блестяще пишут на C, могут даже на ассемблер спуститься если нужно.
Мир не стоит на месте. Даже если вы этого не замечаете
Не хочу Вас огорчать, но с такими убеждениями действительно можно оказаться в группе риска. И дело тут не в ИИ, дело в отсутствии адаптивности. Битрикс - это тоже высокоуровневый фреймворк, а что было далеко “до”? Hex инструкции? Потом Basic, и уже тогда были адепты “это далеко от железа, это вас ограничивает…” Затем c++ GC языки т.д… и каждый раз более высокий уровень разработки бил по “закостенелым”. Нативный язык промптов - лишь ещё один уровень…
Специалист это не "фреймворк + язык", а умение решать задачи ИМХО
Тут и да и нет. Я например использую ИИ в качестве диетолога. Не потому что они умнее, а потому что контекст решает всё. Фитнес это не про ЗОЖ, это про индустрию. И от "живых" я слышал только: ты обязательно должен завтракать, 5 приемов пищи, энергетики? Забудь... Об этом же и все эти "идеальные приложения для идеальных людей" на которые я забивал через неделю. "Для ИИ это лишь вводные данные: ок, не завтракаем, тогда нужно углеводы получать только сложными чтобы редких приемов пищи хватало на перекрытие. Ок, никаких 5 приёмов, максимум прот перекус + питьё. Энергетики? Это плохо, но если ты не готов отказаться от этого тогда мы снижаем гликемический индекс остальной пищи, пей расстягивая 1 банку до обеда во избежание скачков, если сорвешься на вторую - бери без сахара" он раскинет не только БЖУ, но и минералы, витамины и т.д. наблюдая за общим паттернов пищи... И да, такого индивидуального подхода совершенно бесплатно фактически нет
Мы говорим об одном и том же разными тезисами: радикализм в любом векторе - утопия. Не нужно плыть только по течению или только против, нужно руководствоваться здравым смыслом, это и есть наше, незаменимое, человеческое. И в этом мнении мы ушли далеко от “банить всех вайбкодеров на хабре”… Да, тракторы детерминированы и эффективны сейчас, но на заре их КПД был сомнителен + потребность в специалистах и инфраструктуре. Это был довольно рискованный и не столь очевидный шаг. Но если не нравится аналогия с трактором, история помнит не мало подходящих примеров: “индустриализация vs ремесленничество” "скрипторы vs книгопечатание", "плёночная vs цифровая фотография"
И да, может показаться что я поддерживаю повальную интеграцию ИИ везде где только можно, но это не так. Изучать - да. Но не слепо следовать хайповым трендам. Из недавнего: хайп вокруг OpenClaw - агента, который предоставляет “руки” окну чата LLM, забавная игрушка подумал я, но в плане безопасности данных там не то, чтобы брешь, там вселенская чёрная дыра. Но вот прошло не больше 2 месяцев и люди уже интегрируют OpenClaw в управление бизнесом!!!?? Стал ли он заметно безопаснее за это время? Уж точно нет, сама архитектура этого не позволяет, напиши ему в мессенджер и он сольёт тебе всё что угодно. Но волна двигает людей “а мы будем первыми кто это сделает”, и это чувство порой сильнее здравого смысла
Действительно именно человек сделал возможным весь технологический прогресс и обесценивать человеческое - копать под себя же.
Лично моё мнение - тут важна адаптация, разработчики способные лишь писать функции действительно уйдут в историю. Те кто мыслит архитектурно - будет писать функции с помощью ИИ. Страх перед новым — естественен. Проблема не в технологии. Проблема, когда страх заставляет отрицать реальность. Трактор не убил земледелие. Он перевёл пахарей в трактористов и фермеров. Были те, кто бежал позади с вилами вереща "только люди пашут с душой..." Они ушли в историю. Другие же - получили небывалые ранее возможности.
Если ты можешь предложить разработке больше чем просто написание функций и синтаксис - то ИИ будет в твоих руках расширителем горизонта.
Я искренне завидую людям способным видеть места критических ошибок в коде ИИ, мне приходится использовать новые окна в качестве ревьюрера, и то, это не спасает от ошибок в компиляции и работе. Про некоторые аспекты (безопасность данных, оптимизация) я и вовсе стараюсь не думать т.к. "просто работает" это максимально возможная цель
Спасибо, что уточнил. Я тоже против плохого контента. Но когда под “мерзкими чертами” оказываются все, кто пытается что-то сделать и выложить в открытый доступ — мы не стимулируем качество, мы убиваем попытки. Проблема как раз в том, как отделить зёрна от плевел. Будет глупо игнорировать новые инструменты и связанный с ним контент полностью. Таким образом мы рискуем оказаться за бортом прогресса, сжигая Галилео Галилея...
Допустим, убрали всех вайбкодеров. Что изменится? Посмотрите на ленту хабра прямо сейчас: Корпоративные блоги с рекламой, дайджесты англоязычных статей и посты про выгорание и мнения останутся, а это почти 70% текущего хабра. Вайбкодеры хотя бы пытаются решать реальные проблемы.
Почему у нас не придумали свой "OpenClaw"? Потому что его создатель по сути был альтруистом, выложив все наработки в OpenSource, комьюнити подхватило и проект выстрелил. У нас же как правило смотрят в сторону монетизации и коммерческой тайны даже ещё ничего не сделав. Потому OpenSource пуст.
Я тот самый «вайб-кодер», автомаляр, который три месяца назад не мог отличить C++ от Python и «заново переоткрыл Америку», узнав, что DeepSeek может написать простенькую прошивку для МК самостоятельно. Мы быстро сверстали архитектуру, неделю отлаживали, и я написал ту самую статью «Революция…», однако сразу же обозначил ограничения и подчеркнул, что без реальных разработчиков не будет инноваций.
Почему я сделал это? Потому что для меня это стало открытием, которое даёт возможность мне и таким как я реализовать задуманное. И если я не слышал об этом раньше — возможно, есть люди, которые ещё не знают о таком подходе. Вы крутитесь в этой среде, и подобные статьи мелькают перед глазами всё время. А для кого-то это входной билет.
Так почему же я не остановился? Меня удручает текущая ситуация в робототехнике RU-сегмента. Посмотрите хаб сами: ИТ-гиганты бравируют проприетарными VLA-моделями, корреспонденты освещают новости, и DIY-эксперименты на уровне Arduino/Raspberry Pi — проекты на коленке. Всё, что могут сейчас энтузиасты, сравнимо с индейцами против огнестрела VLA-гигантов.
В поисках решений я стал углубляться в ROS 2, который тоже уже динозавр и предлагает в основном хоть и детерминированные, но сильно уступающие алгоритмы. Недавно пришлось выбросить 80% логики из Nav 2 Stack — просто потому что VLM выполняет те же задачи с большей точностью. Я решил попытаться сгладить этот разрыв. Мы написали фреймворк: агентную архитектуру, опирающуюся на LLM/VLM-связку с «железными» гарантиями безопасности. Подробно задокументировали для дальнейших правок — возможно, сторонних разработчиков. Предусмотрели сбор датасета для обучения той же VLA или fine-tune маленьких LLM. Но это уже тонкости, коих ещё очень много.
Ключевое: я понимаю, что в одиночку мне не построить этот мост — даже при помощи ИИ. Но это может стать концепт-идеей для схожих реализаций от профессиональных разработчиков. Моя единственная цель — популяризация робототехники в РУ-сегменте. И если эта концепция вдохновит хотя бы одного разработчика на открытый проект - я свою задачу выполнил
Спасибо за статью. Не плохо было бы осветить ещё "системный промпт" доступный на локальных моделях и некоторых API. Модель гарантированно будет применять эту инструкцию к каждому ответу вне зависимости от длины контекста
Идеально! STM32 с "реальным временем" + NPU блок, достаточный для запуска VLM/LLM до 3В параметров на запредельной скорости. Люди говорящие что "нормальная VLA не полетит" - это вопрос оптимизации. Если вы обучите VLA на пресетах к этому же железу - всё будет работать безупречно. Да, это не Jetson Orin, но если цена соответствует - большинство задач эта сборка закрывает
Обидно что подобные статьи остаются без должного внимания и обсуждений в RU комьюнити...
Хотелось бы больше информации каким моделям можно задавать system prompt которого они будут придерживаться весь диалог, про RAG... Но и тут хлеба хватает. Спасибо за Ваш труд!
Звучит не плохо, но снова делается ставка на VLA, которые не "блещут интеллектом", наоборот, VLA прекрасные исполнители высокоуровневых решений. Радует что люди стали понимать - необходим не sim-to-real, а real-to-sim. Но на деле выглядит ещё очень сыро, во всяком случае в публичном пространстве. Я считаю что подобный проект может взлететь какраз только при всеобщей вовлечённости. У меня есть видение как это сделать, но нет ресурсов, остаётся наблюдать за успехами сообщества
На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)
Думаю тут дело не в том, что нет, а в целесообразности. Это простой сервер, ему ненужно крутить локальную LLM или рендерить. Поэтому смартфона с потреблением в несколько ватт энергии, не гудящего кулерами, и стабильно работающего длительное время с отсутствием тепловыделения достаточно. Как бонус: реализованные кодеки, шумодав, отличная камера в случае использования в качестве IP видеонаблюдения
Как не дальновидно. Когда LLM-ку бустит сверхдержава, даже самая раздутая коммерческая компания очень скоро останется позади. И это уже на пороге, чек обнову V4
Почему все списывают со счетов DeepSeek? Он в V4 неплохо апгрейднулся, меня всем устраивает. Да, нужен свой подход, но и контроля больше
Очень "живая" история, неподдельный дух истинного DIY, спасибо. Зацепило что Вы без хейта констатируете: "времена изменились ESP32 и лидары стоят копейки на каждом углу, ИИ пишет код." Это самая здравия позиция на сегодняшний день на мой взгляд...
Увы, но ваша картина мира устарела лет на пять. В “стиралках и холодильниках” уже давно Linux, а не “среда без ОС”. А дроны весь мир (включая вооруженные силы) пытается перевести с детерминированных алгоритмов на TensorFlow Micro и TinyML. И, к сожалению для вашего аргумента, в оборонке это уже реализовали.
LLM блестяще пишут на C, могут даже на ассемблер спуститься если нужно.
Мир не стоит на месте. Даже если вы этого не замечаете
Не хочу Вас огорчать, но с такими убеждениями действительно можно оказаться в группе риска. И дело тут не в ИИ, дело в отсутствии адаптивности. Битрикс - это тоже высокоуровневый фреймворк, а что было далеко “до”? Hex инструкции? Потом Basic, и уже тогда были адепты “это далеко от железа, это вас ограничивает…” Затем c++ GC языки т.д… и каждый раз более высокий уровень разработки бил по “закостенелым”. Нативный язык промптов - лишь ещё один уровень…
Специалист это не "фреймворк + язык", а умение решать задачи ИМХО
...... И сжигать 5G вышки...
Тут и да и нет. Я например использую ИИ в качестве диетолога. Не потому что они умнее, а потому что контекст решает всё. Фитнес это не про ЗОЖ, это про индустрию. И от "живых" я слышал только: ты обязательно должен завтракать, 5 приемов пищи, энергетики? Забудь... Об этом же и все эти "идеальные приложения для идеальных людей" на которые я забивал через неделю. "Для ИИ это лишь вводные данные: ок, не завтракаем, тогда нужно углеводы получать только сложными чтобы редких приемов пищи хватало на перекрытие. Ок, никаких 5 приёмов, максимум прот перекус + питьё. Энергетики? Это плохо, но если ты не готов отказаться от этого тогда мы снижаем гликемический индекс остальной пищи, пей расстягивая 1 банку до обеда во избежание скачков, если сорвешься на вторую - бери без сахара" он раскинет не только БЖУ, но и минералы, витамины и т.д. наблюдая за общим паттернов пищи... И да, такого индивидуального подхода совершенно бесплатно фактически нет
Мы говорим об одном и том же разными тезисами: радикализм в любом векторе - утопия. Не нужно плыть только по течению или только против, нужно руководствоваться здравым смыслом, это и есть наше, незаменимое, человеческое. И в этом мнении мы ушли далеко от “банить всех вайбкодеров на хабре”… Да, тракторы детерминированы и эффективны сейчас, но на заре их КПД был сомнителен + потребность в специалистах и инфраструктуре. Это был довольно рискованный и не столь очевидный шаг. Но если не нравится аналогия с трактором, история помнит не мало подходящих примеров: “индустриализация vs ремесленничество” "скрипторы vs книгопечатание", "плёночная vs цифровая фотография"
И да, может показаться что я поддерживаю повальную интеграцию ИИ везде где только можно, но это не так. Изучать - да. Но не слепо следовать хайповым трендам. Из недавнего: хайп вокруг OpenClaw - агента, который предоставляет “руки” окну чата LLM, забавная игрушка подумал я, но в плане безопасности данных там не то, чтобы брешь, там вселенская чёрная дыра. Но вот прошло не больше 2 месяцев и люди уже интегрируют OpenClaw в управление бизнесом!!!?? Стал ли он заметно безопаснее за это время? Уж точно нет, сама архитектура этого не позволяет, напиши ему в мессенджер и он сольёт тебе всё что угодно. Но волна двигает людей “а мы будем первыми кто это сделает”, и это чувство порой сильнее здравого смысла
Действительно именно человек сделал возможным весь технологический прогресс и обесценивать человеческое - копать под себя же.
Лично моё мнение - тут важна адаптация, разработчики способные лишь писать функции действительно уйдут в историю. Те кто мыслит архитектурно - будет писать функции с помощью ИИ. Страх перед новым — естественен. Проблема не в технологии. Проблема, когда страх заставляет отрицать реальность. Трактор не убил земледелие. Он перевёл пахарей в трактористов и фермеров. Были те, кто бежал позади с вилами вереща "только люди пашут с душой..." Они ушли в историю. Другие же - получили небывалые ранее возможности.
Если ты можешь предложить разработке больше чем просто написание функций и синтаксис - то ИИ будет в твоих руках расширителем горизонта.
Я искренне завидую людям способным видеть места критических ошибок в коде ИИ, мне приходится использовать новые окна в качестве ревьюрера, и то, это не спасает от ошибок в компиляции и работе. Про некоторые аспекты (безопасность данных, оптимизация) я и вовсе стараюсь не думать т.к. "просто работает" это максимально возможная цель
Спасибо, что уточнил. Я тоже против плохого контента. Но когда под “мерзкими чертами” оказываются все, кто пытается что-то сделать и выложить в открытый доступ — мы не стимулируем качество, мы убиваем попытки. Проблема как раз в том, как отделить зёрна от плевел. Будет глупо игнорировать новые инструменты и связанный с ним контент полностью. Таким образом мы рискуем оказаться за бортом прогресса, сжигая Галилео Галилея...
Допустим, убрали всех вайбкодеров. Что изменится? Посмотрите на ленту хабра прямо сейчас: Корпоративные блоги с рекламой, дайджесты англоязычных статей и посты про выгорание и мнения останутся, а это почти 70% текущего хабра. Вайбкодеры хотя бы пытаются решать реальные проблемы.
Почему у нас не придумали свой "OpenClaw"? Потому что его создатель по сути был альтруистом, выложив все наработки в OpenSource, комьюнити подхватило и проект выстрелил. У нас же как правило смотрят в сторону монетизации и коммерческой тайны даже ещё ничего не сделав. Потому OpenSource пуст.
Я тот самый «вайб-кодер», автомаляр, который три месяца назад не мог отличить C++ от Python и «заново переоткрыл Америку», узнав, что DeepSeek может написать простенькую прошивку для МК самостоятельно. Мы быстро сверстали архитектуру, неделю отлаживали, и я написал ту самую статью «Революция…», однако сразу же обозначил ограничения и подчеркнул, что без реальных разработчиков не будет инноваций.
Почему я сделал это? Потому что для меня это стало открытием, которое даёт возможность мне и таким как я реализовать задуманное. И если я не слышал об этом раньше — возможно, есть люди, которые ещё не знают о таком подходе. Вы крутитесь в этой среде, и подобные статьи мелькают перед глазами всё время. А для кого-то это входной билет.
Так почему же я не остановился? Меня удручает текущая ситуация в робототехнике RU-сегмента. Посмотрите хаб сами: ИТ-гиганты бравируют проприетарными VLA-моделями, корреспонденты освещают новости, и DIY-эксперименты на уровне Arduino/Raspberry Pi — проекты на коленке. Всё, что могут сейчас энтузиасты, сравнимо с индейцами против огнестрела VLA-гигантов.
В поисках решений я стал углубляться в ROS 2, который тоже уже динозавр и предлагает в основном хоть и детерминированные, но сильно уступающие алгоритмы. Недавно пришлось выбросить 80% логики из Nav 2 Stack — просто потому что VLM выполняет те же задачи с большей точностью. Я решил попытаться сгладить этот разрыв. Мы написали фреймворк: агентную архитектуру, опирающуюся на LLM/VLM-связку с «железными» гарантиями безопасности. Подробно задокументировали для дальнейших правок — возможно, сторонних разработчиков. Предусмотрели сбор датасета для обучения той же VLA или fine-tune маленьких LLM. Но это уже тонкости, коих ещё очень много.
Ключевое: я понимаю, что в одиночку мне не построить этот мост — даже при помощи ИИ. Но это может стать концепт-идеей для схожих реализаций от профессиональных разработчиков. Моя единственная цель — популяризация робототехники в РУ-сегменте. И если эта концепция вдохновит хотя бы одного разработчика на открытый проект - я свою задачу выполнил
Спасибо за статью. Не плохо было бы осветить ещё "системный промпт" доступный на локальных моделях и некоторых API. Модель гарантированно будет применять эту инструкцию к каждому ответу вне зависимости от длины контекста
Идеально! STM32 с "реальным временем" + NPU блок, достаточный для запуска VLM/LLM до 3В параметров на запредельной скорости. Люди говорящие что "нормальная VLA не полетит" - это вопрос оптимизации. Если вы обучите VLA на пресетах к этому же железу - всё будет работать безупречно. Да, это не Jetson Orin, но если цена соответствует - большинство задач эта сборка закрывает
Спасибо за статью! Какраз сейчас работаю над архитектурой где LLM получает такого рода промпты:
Ты робот д51×ш32×в37см 0°=↑=прямо Отвечай JSON: {“action”:“move”,“params”:{“l”:300,“r”:300},“reasoning”:“…”} action: move,stop,light,say,talk,ask,remember,find,search,plan,battery params: move{l,r}, light{s}, say{t}, talk{t}, ask{q}, remember{n}, find{n}, search{q}, plan{g}
ТЕКУЩАЯ СИТУАЦИЯ: Время: 1712345720.45 Текущее намерение: движение вперёд
ДАННЫЕ СЕНСОРОВ (по важности): • lidar: front=0.4м, front_left=0.5м, left=2.0м, back_left=5.0м, back=6.0м, back_right=5.5м, right=2.8м, front_right=2.9м | ближе 80см: -5°;15° ~40см, 0.6м, v=1.2м/с ↓ [вес: 0.95, возраст: 0.02с] • vlm: сцена: коридор, объекты: человек 1.2м, путь: free [вес: 0.65, возраст: 0.70с] • odometry: vл=0.3, vп=0.3, курс(global, 0°=nord)=0° [вес: 0.68, возраст: 0.04с]
Отвечай JSON: {“action”:“move”,“params”:{“l”:300,“r”:300},“reasoning”:“…”} action: move,stop,light,say,talk,ask,remember,find,search,plan,battery params: move{l,r}, light{s}, say{t}, talk{t}, ask{q}, remember{n}, find{n}, search{q}, plan{g}
Доступно: move_forward, move_backward, turn_left, turn_right, stop, set_light, speak, speak_to_human, ask_human, remember_object, find_object, search_by_text, compose_plan, get_battery
Обидно что подобные статьи остаются без должного внимания и обсуждений в RU комьюнити...
Хотелось бы больше информации каким моделям можно задавать system prompt которого они будут придерживаться весь диалог, про RAG... Но и тут хлеба хватает. Спасибо за Ваш труд!
Звучит не плохо, но снова делается ставка на VLA, которые не "блещут интеллектом", наоборот, VLA прекрасные исполнители высокоуровневых решений. Радует что люди стали понимать - необходим не sim-to-real, а real-to-sim. Но на деле выглядит ещё очень сыро, во всяком случае в публичном пространстве. Я считаю что подобный проект может взлететь какраз только при всеобщей вовлечённости. У меня есть видение как это сделать, но нет ресурсов, остаётся наблюдать за успехами сообщества
На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)
Думаю тут дело не в том, что нет, а в целесообразности. Это простой сервер, ему ненужно крутить локальную LLM или рендерить. Поэтому смартфона с потреблением в несколько ватт энергии, не гудящего кулерами, и стабильно работающего длительное время с отсутствием тепловыделения достаточно. Как бонус: реализованные кодеки, шумодав, отличная камера в случае использования в качестве IP видеонаблюдения
Проблема в том, что это не может быть "универсальным" из-за проприетарности драйверов АКБ.
И одновременно с этим решение уже есть, достаточно лишь извлечь плату контроллера АКБ, выбросить (в центр утилизации конечно) литий.
1. заменить его на стандартную банку 18650
2 подвести стабильные 3.7 вольта
Старые смартфоны за частую гораздо лучше профильных edge устройств и всяческих "мини ПК", я использовал вообще динозавра в https://habr.com/p/1007546/
Но даже это было лучше чем распиаренный Raspberry