IsupovEvgenii May 8 at 21:59

Чему меня научили два месяца с легковесным локальным AI-агентом

Easy

6 min

25K

Open source * Artificial IntelligenceDevelopment for Raspberry Pi * System administration *

Retrospective

+18

Comments 41

Pinned comments

IsupovEvgenii 18 hours ago

Если коротко — главная мысль статьи была не про “ещё одного AI-агента”.

Сейчас индустрия в основном идёт через scale: больше моделей, больше GPU, больше orchestration. А мне стало интересно обратное направление, можно ли получить более полезную и предсказуемую систему не за счёт роста мощности, а за счёт архитектуры.

Отсюда и появился deterministic-first подход: пусть LLM делает то, где он реально хорош (classification/fallback), а всё остальное остаётся простой и проверяемой системой.

И было приятно увидеть в комментариях людей, которые тоже пришли к похожим выводам в своих проектах :)

WhiteBehemoth May 9 at 01:38

Сейчас вся AI-индустрия движется в сторону...

по-моему нет какого-то монолитного движения. Есть облачные агенты для трудоёмких задач. Для агентов уровня "подай-принеси", в противовес, создаются инструменты для разработки своих решений.

Вот, к примеру, свежая статья про свежий, относительно лёгкий, агентский фреймфорк https://devblogs.microsoft.com/dotnet/durable-workflows-in-microsoft-agent-framework/ (я на этом https://github.com/microsoft/agent-framework делал своего "ассистента" для pRI 3b с той же sqlite и телеграммом для интерфейса - работает шустро и стабильно).

Elaugaste May 9 at 05:54

Понять бы только, почему все это не завернуть на хелсчеки и не рестартить юнитом. Вместо того чтобы быть обслуживающим персоналом для своей железки. Бонусом отпадает потребность в llm

SabMakc May 9 at 06:26

А что за прикол с английскими словами в тексте? Это не какие-то термины, не названия, а просто отдельные слова и понятия на английском.

Это модель, подготовившая статью, плохо знает русский? Или специально сделано?

NightKiro May 9 at 08:45

leshchenko May 9 at 12:49

Это ИИ + нежелание вычитывать перед публикацией

KBAPTET yesterday at 08:01

Увы, не совсем так. В IT (и не только) укоренилось раболепское суеверие о том, что если чел направо и налево использует англицизмы, то это считается признаком крутости.

DamirMur yesterday at 10:30

Не раболепское, просто полных аналогов нет. Тот же компьютер и интернет - это голимые англицизмы.

isden 20 hours ago

А я все не могу подобрать хороший аналог (пусть даже и англицизм, но чтобы произносить и писать было удобно) для mitigation :(

obbana May 9 at 07:19

ИИ контент (пускай так вот обработанный) уже… надоел)) Мне вот тоже непонятно, имея Docker/Systemd почему вообще что-то нужно постоянно перезагружать? Я ничего у себя нигде не перезагружаю и все работает. Иногда текстом состояние в телеграм - это наверно удобнее чем Grafana, когда не у компа или в поездке, но в остальном непонятно зачем это всё

for7raid May 9 at 07:54

Согласен. Начал читать статью и не понял прикладного смысла этой системы. Почему докер упал и его нужно перезагрузить вручную? Почему посыпались ошибки чего-то там, но автор просто их поставил в игнор? Может не такие уж и важные эти уведомления и нет смысла в магазине на них отвлекаться. Кажется, здесь вместо того, чтобы настроить нормально сервера и системы, автор делает автоматизацию (ради автоматизации).

sergeifedorenkon May 9 at 11:38

Статья не про падение докера, падение докера это всего ли артефакт жизни

for7raid May 9 at 13:35

Совершенно верно. Статья не про докер, а про то, что на мак мини запущен ИИ, чтобы перезапускать упавшую малинку.

PsihXMak May 9 at 08:24

По стилю похоже на одну из последних ChatGPT. Он тоже в строгом режиме пишет сухую инфу, опуская контекст. Ну и списки. Бооольше списков!

Barnaby May 9 at 11:09

ChatGPT русский хорошо знает, это такой-то китаец, спасибо что без иероглифов :)

опуская контекст

Просто ии тоже не понял зачем все это нужно :)

AleGen yesterday at 09:16

Русский-то хорошо знает, но англицизмами любит всё усеивать, есть такое, подтверждаю.

Barnaby yesterday at 11:11

Она помогает выбрать intent. И маленькие модели surprisingly хороши в этом.

Это не англицизмы, просто модель стала английские слова выбирать. Я такое только у китайцев и грока видел. При сильном квантовании проявляется чаще.

SilverHorse May 9 at 09:29

ИИ пишет статью о том, как ИИ придумал то, как использовать ИИ там, где ИИ не нужен...

Когда уже хабр введет плашку, как в стиме, "этот бред сгенерирован ИИ, потому что у автора не хватило ума написать что-то оригинальное, да и писать было не о чем, потому что сам автор ничего толком не сделал"?

Frankenstine yesterday at 10:35

Когда уже хабр введет плашку, как в стиме, "этот бред сгенерирован ИИ

И зачем нам на хабре такие статьи не в песочнице?

Antra May 9 at 09:35

> Telegram: "что там с системой" → Hostname, CPU, Memory, Disk, Uptime, Temperature, всё в одном коротком ответе.
Скриншот выше, тот же самый skill /status, но без LLM-вызова: русская фраза детерминированно нормализовалась.

Можно пояснить, как именно безо всяких LLM чисто детерминировано из "что там с системой" система поняла, что от нее требуется?

Это же не "заученная фраза"? на "система в норме?" или "состояние системы?" такой же ответ был бы безо всяких LLM? Но и не просто по вхождению "систем", разумеется.

KEugene May 9 at 10:15

Все таки, я не понял, зачем держать и Raspberry Pi, и mac mini. Какие у кого из них задачи?

xaerowalk May 9 at 10:35

ну я бы на mac mini крутил задачки, а на rpi воткнул бы мониторинг, а тут какая-то каша намешана с llm

martelle May 9 at 11:38

Никогда не стал бы ставить криптокошельки на смартфон. Потому что доверия телефону - околоноль
Никогда не стал бы заходить на свои серверы со смартфона, по той же причине.
Автор - васян локалхоста (убунтуй ещё небось). И то что у него что-то постоянно валится и требует перезагрузки - 100%ный пруф.
лучше б админские скиллы покачал, а не слоп генерил

leshchenko May 9 at 12:51

Ещё бы понять из статьи, зачем все так сложно...

isden May 9 at 13:03

васян локалхоста (убунтуй ещё небось).

Ну у меня убунта на 3 локалхостах (два из них арм64), плюс еще дебиан на одном (и хочу его тоже мигрировать). Вы что-то имеете против убунты?

martelle May 9 at 15:16

> что-то имеете против убунты?

убунта - четкий признак ламера, вот и всё. у неё нет ниши. для сервера никуда не годится по сравнению с rhel-клонами, для десктопа тоже есть намного лучше и очень разные варианты.

isden May 9 at 15:18

убунта - четкий признак ламера

Как-то аж ЛОРом образца конца 00-х пахнуло.

для сервера никуда не годится по сравнению с rhel-клонами

И вы можете это как-то обосновать, верно?

martelle May 9 at 17:21

по всем тезисам можешь сходить в gpt, доходчиво объяснит, прям страницами примеров:

-apt убожество (vs dnf)

-apparmor убожество (vs selinux)

-пропихивают snap и прочее гуано

-ядерная экспертиза у rhel. debian - фофаны, убунтуи - пытаются из г сделать конфету, кривыми руками.

-мэйнтейнеры фофаны, бывают полностью нерабочие пакеты из коробки.

-слишком свежие ядра, апдейты ломучие

количество васян-говнопакетов - 100500, в то же время какой-нибудь openjdk (в rhel одновременно 8,11,21,25) - один гвоздями прибит. gcc и куча всего другого.

это если прям навскидку... много раз пытался держать серваки на дебианах - каждый раз выкидывал через месяц.

isden May 9 at 17:29

можешь сходить в gpt,

Ну да, конечно.

убожество
фофаны

О г-споди. Все с вами понятно. Возвращайтесь обратно на ЛОР, прошу.

много раз пытался держать серваки на дебианах

Может быть дело в руках? У меня уже более 15 лет на дебианах/убунтах успешно живет пачка серверов. Некоторое время назад вот несколько сотен нод на rhel-based появилось.

martelle May 9 at 18:34

кстати, к заявлениям выше, добавлю: недавняя история с растовыми coreutils полностью характеризует убунтуев как фофанов-рукожопов. ты небось и не в курсе таких тонкостей.

>Ну у меня убунта на 3 локалхостах (два из них арм64), плюс еще дебиан на одном

>Некоторое время назад вот несколько сотен нод на rhel-based появилось.

на хабре ... не кули ворочать, по делу я выше написал, от тебя только псевдолюбезное хрю-му. арм64 надеюсь что-то типа ampere, а не васян-растберри.

isden May 9 at 18:40

Можете не продолжать, я уже понял с кем общаюсь.

kpen May 9 at 20:37

для десктопа тоже есть намного лучше и очень разные варианты

Я - обычный пользователь Линукса. Убунта из-за популярности начинает привлекать проблемы. Пожалуйста - киньте пару-тройку названий, в какую сторону мне гуглить.

palyaros02 yesterday at 00:01

Знаете, я вот попробовал кучу всего из мира линуксов, даже совсем экзотику, точно больше 30 дистров. Что-то тыкал пару дней, что-то стояло основной системой от полугода до двух. И нативно, и в контейнерах, и на wsl. И знаете, после 8 лет дистрохопинга я остановился на kubuntu 25.10. Нарадоваться не могу стабильности, особенно после роллингового арча и винды. Для моего сценария использования лучше ничего не нашел. Я ставлю очень много всякого рода опенсорсни, многое приходится из сурсов собирать, плюс играю в игры и по работе есть ряд программ, требующих винды. Впервые за мою линуксятскую жизнь всё просто работает, а если нет - решение по первой ссылке, либо очевидно как его “натыкать мышкой” вообще без терминала.

DamirMur yesterday at 04:20

Работать должно с разными мессенджерами, в России логичнее работать с ВК - также легко создаются чаты, сколько угодно, плюс работа в режиме белых списков. Зачем мне телеграмм, если мобильная связь фильтруется.
Если агент доступен через интернет, то и облачные модели тоже доступны, поэтому локальную модель можно не ставить, разве что для отладки - иногда нужно.
Модель не должна знать секреты. А если она их не знает, то можно и облачную.
У меня тоже на трех компьютерах (кстати можно и на старый смартфон воткнуть, если модель облачная),
но я склоняюсь к мысли выделить 0.5 Г ОЗУ на удаленном серваке с фиксированным ip адресом. или сейчас узнал есть готовый бесплатный вариант - AnythingLLM , если я всё правильно понял.

Sharukan yesterday at 10:53

Нейроуши в статье можно купировать. А вообще любопытно. Мой опыт с Gemma 4 линейкой субъективно - вообще не qwen ни разу, лучше в общих задачах. И про использование мелких скорее роутерами или copilot интерфейсом, оно само напрашивается и задумываешься. Уйти уже из болота regex, конфигов и прочего. Без разницы будет локальная работать сама или с оркестратором сверху.

Старое устройство или расширение вроде Raspberry Pi AI HAT+ 2 и это используется не 0.5B модель.

Мелких моделей будет становится больше в использовании, один Chrome как отжег ). А потом фреймворков для этого. Devops подход может трясти седыми волосами, но у него своя четкая ниша.

Ra2007 19 hours ago

Паттерн deterministic-first с LLM как fallback, нашли то же самое с Claude Code, только на кодовой базе а не на роутере. Сначала пытались положиться на модель во всём, она раз за разом принимала «творческие» решения там где нужна строгость. Выход тот же: явные правила вперёд, LLM только туда куда правила не дотягиваются. У нас это CLAUDE.md с explicit запретами на уровне каждого модуля, ты реализовал то же самое в виде каскада slash-команды → regex → rule-based → semantic. Принцип идентичный. Вопрос: когда LLM ошибается и выбирает «почти правильный» tool, как это логируешь? Интересно есть ли паттерн в ошибках, который потом можно перенести в deterministic слой.

IsupovEvgenii 18 hours ago

Да, очень похожий вывод в итоге получился.

Самые неприятные ошибки были не когда модель совсем ошибалась, а когда выбирала “почти правильный” tool. Поэтому со временем начал логировать:

запрос,
candidate group/tool,
confidence,
и execution path.

И да, постепенно часть таких кейсов просто переезжает выше в deterministic слой: aliases, semantic normalization, explicit parsing.

Получается забавный цикл: LLM помогает находить новые intent patterns, после чего сам становится не нужен для этих запросов

Также есть е2е тесты на каждый релиз, где поднимается реальная ллм 0.5b и пргоняется весь core функционал через cli версию

Ra2007 5 hours ago

Мы до логирования confidence дошли примерно через месяц боли. Просто смотрели, модель ошиблась, и всё, непонятно было даже в какую сторону копать. Потом начали писать candidate scores и сразу стало видно что это не ошибка, а реально почти одинаковые веса у двух tools. Цикл да, у нас так же несколько кейсов буквально выкристаллизовались в explicit parsing, сначала в логах видишь что каждый раз одно и то же, потом просто хардкодишь. Какую 0.5b используете на е2е, Qwen?

IsupovEvgenii 3 hours ago

Qwen

IsupovEvgenii 2 hours ago

Если довести работы на 0.5b, то можно не волноваться о моделях больше

IsupovEvgenii 18 hours ago

Если коротко — главная мысль статьи была не про “ещё одного AI-агента”.

И было приятно увидеть в комментариях людей, которые тоже пришли к похожим выводам в своих проектах :)

Pifarh 5 hours ago

Нейросеть, ты ли это?