Комментарии 9

Думаю эта больше подходит для поста)
Спасибо за статью, весьма познавательно!
У Вас нет планирования маршрута перемещения (самого робота или исполнительного инструмента) моделью. По сути, Вы натренировали вызов тулов моделью. По этому интересен момент, а насколько ванильная FunctionGemma с переданным ей списком тулов справится с заданием?
ванильную гемму я проверял в начале статьи, она жестко галлюцинировала, поэтому и понадобился файн тюнинг.
Собственно, гугл изначально и обозначил что это модель для файнтюна а не для использования ванили как есть.
А зрением для модели, чтобы она могла сама находить нужные предметы я ща занимаюсь, должно получится интересно.
ванильную гемму я проверял в начале статьи
Не ванильную Гемму, а FunctionGemma (https://ai.google.dev/gemma/docs/functiongemma). Google'ом зафайнтюненая версия Gemma3 для вызава тулов. Возможно, даже ее ванильная версия будет приемлема, если ей просто список тулов передать.
Но фактически да, это файн тюн на вызов тулзов, надо было обозначить это в статье, что вся эта эпопея показывает что модель потенциально можно использовать в агентных сценариях. Спасибо за комментарий
Превосходная работа! Очень радует видеть движение в этом направлении не только ИТ гигантов.
Архитектурно я бы добавил VLM модель или хотя бы простейшую YOLO (но тогда не будет семантики)
Малинки Zero конечно не хватит, но какой-нибудь смартфон или Orange Pi 5 с лихвой.
А как наладить сообщение между VLM/LLM моделью, остальными сенсорами, добавить "восприятие времени" и упаковать в компактный промпт писал в:


Как я загрузил компактную открытую LLM в робота и сказал ему ходить (и хватать)