Комментарии / Профиль SlavaLobozov / Хабр

Пользователь

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Хороший подход с разделением ролей - “9 logical - 5 physical” это грамотная оптимизация.

что интересно: все 9 агентов у вас stateless между
вызовами. Orchestrator решает кому передать задачу, но не помнит как предыдущая задача повлияла на “настроение” системы.

Я экспериментирую с другой архитектурой - один агент, но с
persistent emotional state. Kernel решает КАК отвечать
(детерминированная математика, zero LLM calls), а LLM решает
только ЧТО сказать. По сути ваш orchestrator - но не для
маршрутизации задач, а для модуляции поведения.

Тезис “специализация бьёт универсальность” - полностью согласен.
У меня аналог: разделение на kernel (pure math, deterministic)
и LLM (verbalization). Каждый делает то что умеет лучше.
Kernel не пытается генерировать текст. LLM не пытается
считать эмоции.

Про 211GB VRAM - а рассматривали вариант где часть логики
вообще не на LLM? У меня kernel работает за ~1ms на CPU, ноль GPU. LLM нужен только для финального текста.

Юридическое поле экспериментов для RAG

SlavaLobozov 30 мар в 05:17

Крутой разбор, особенно про grounding metric - что без правильной атрибуции даже идеальный ответ проваливается.

Столкнулся с похожей проблемой в другом контексте: делаю AI-компаньон с persistent памятью. Flat RAG не справлялся - факт “Маша обещала позвонить” без эмоционального контекста момента (она была расстроена) превращается в мёртвые данные.

Перешёл на 7-мерный граф с somatic markers (Damasio) - каждый факт хранит valence (эмоциональный заряд при записи). Spreading activation вместо cosine similarity — граф знает что person X связан с promise Y через episode Z, а не просто “похожие эмбеддинги”.

Hybrid подход (BM25 + semantic) как у вас, но с добавлением temporal proximity boost - факты близкие по ВРЕМЕНИ к текущему моменту получают gaussian boost. Решает проблему “вспомни что было час назад” где keyword match и семантика не помогают.

Интересно было бы сравнить grounding metrics на графовом retrieval vs flat. Формального бенчмарка пока нет, но субъективно - граф реже “галлюцинирует” источник, потому что edge type = явная связь.

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

SlavaLobozov 29 мар в 07:15

Сори за путаницу) случайно смешал два комментария к разным статьям. “9 агентов” это к другому материалу, не к вашему.

По поводу Яндекса и контекстного окна - согласен, маленькое окно усугубляет проблему. Но persistent state работает не через расширение окна, а через внешнее хранилище - граф с decay и spreading activation. В окно попадает только релевантное, отобранное математически. Так что размер окна менее критичен - важнее качество того что в него попадает. Буду следить за вашей будущей статьёй про Яндекс - интересная задача.

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

SlavaLobozov 29 мар в 05:40

Интересное сравнение. Но ведь все 34 модели тестировались
в режиме “один запрос - один ответ”?

А реальный менеджер работает в контексте - если сотрудник
третий день подряд грустный, ты это замечаешь. Ни одна из
34 моделей этого не умеет, даже та что на 4.50.

Кстати забавный вывод получается: если добавить persistent
state поверх модели, то YandexGPT с памятью может оказаться
полезнее Claude без памяти. Помнить иногда важнее чем быть умным.

Статья про 9 агентов:

Классная архитектура, особенно “9 logical - 5 physical”.

А не думали над тем чтобы часть логики вынести вообще за
пределы LLM? Я пробовал - детерминированный kernel на CPU
за ~1ms решает КАК отвечать, а LLM только генерирует текст.
GPU нужен только для финального шага.

По сути ваш orchestrator, но вместо маршрутизации задач -
модуляция поведения.