Хороший подход с разделением ролей - “9 logical - 5 physical” это грамотная оптимизация.
что интересно: все 9 агентов у вас stateless между вызовами. Orchestrator решает кому передать задачу, но не помнит как предыдущая задача повлияла на “настроение” системы.
Я экспериментирую с другой архитектурой - один агент, но с persistent emotional state. Kernel решает КАК отвечать (детерминированная математика, zero LLM calls), а LLM решает только ЧТО сказать. По сути ваш orchestrator - но не для маршрутизации задач, а для модуляции поведения.
Тезис “специализация бьёт универсальность” - полностью согласен. У меня аналог: разделение на kernel (pure math, deterministic) и LLM (verbalization). Каждый делает то что умеет лучше. Kernel не пытается генерировать текст. LLM не пытается считать эмоции.
Про 211GB VRAM - а рассматривали вариант где часть логики вообще не на LLM? У меня kernel работает за ~1ms на CPU, ноль GPU. LLM нужен только для финального текста.
Крутой разбор, особенно про grounding metric - что без правильной атрибуции даже идеальный ответ проваливается.
Столкнулся с похожей проблемой в другом контексте: делаю AI-компаньон с persistent памятью. Flat RAG не справлялся - факт “Маша обещала позвонить” без эмоционального контекста момента (она была расстроена) превращается в мёртвые данные.
Перешёл на 7-мерный граф с somatic markers (Damasio) - каждый факт хранит valence (эмоциональный заряд при записи). Spreading activation вместо cosine similarity — граф знает что person X связан с promise Y через episode Z, а не просто “похожие эмбеддинги”.
Hybrid подход (BM25 + semantic) как у вас, но с добавлением temporal proximity boost - факты близкие по ВРЕМЕНИ к текущему моменту получают gaussian boost. Решает проблему “вспомни что было час назад” где keyword match и семантика не помогают.
Интересно было бы сравнить grounding metrics на графовом retrieval vs flat. Формального бенчмарка пока нет, но субъективно - граф реже “галлюцинирует” источник, потому что edge type = явная связь.
Сори за путаницу) случайно смешал два комментария к разным статьям. “9 агентов” это к другому материалу, не к вашему.
По поводу Яндекса и контекстного окна - согласен, маленькое окно усугубляет проблему. Но persistent state работает не через расширение окна, а через внешнее хранилище - граф с decay и spreading activation. В окно попадает только релевантное, отобранное математически. Так что размер окна менее критичен - важнее качество того что в него попадает. Буду следить за вашей будущей статьёй про Яндекс - интересная задача.
Интересное сравнение. Но ведь все 34 модели тестировались в режиме “один запрос - один ответ”?
А реальный менеджер работает в контексте - если сотрудник третий день подряд грустный, ты это замечаешь. Ни одна из 34 моделей этого не умеет, даже та что на 4.50.
Кстати забавный вывод получается: если добавить persistent state поверх модели, то YandexGPT с памятью может оказаться полезнее Claude без памяти. Помнить иногда важнее чем быть умным.
Статья про 9 агентов:
Классная архитектура, особенно “9 logical - 5 physical”.
А не думали над тем чтобы часть логики вынести вообще за пределы LLM? Я пробовал - детерминированный kernel на CPU за ~1ms решает КАК отвечать, а LLM только генерирует текст. GPU нужен только для финального шага.
По сути ваш orchestrator, но вместо маршрутизации задач - модуляция поведения.
Хороший подход с разделением ролей - “9 logical - 5 physical” это грамотная оптимизация.
что интересно: все 9 агентов у вас stateless между
вызовами. Orchestrator решает кому передать задачу, но не помнит как предыдущая задача повлияла на “настроение” системы.
Я экспериментирую с другой архитектурой - один агент, но с
persistent emotional state. Kernel решает КАК отвечать
(детерминированная математика, zero LLM calls), а LLM решает
только ЧТО сказать. По сути ваш orchestrator - но не для
маршрутизации задач, а для модуляции поведения.
Тезис “специализация бьёт универсальность” - полностью согласен.
У меня аналог: разделение на kernel (pure math, deterministic)
и LLM (verbalization). Каждый делает то что умеет лучше.
Kernel не пытается генерировать текст. LLM не пытается
считать эмоции.
Про 211GB VRAM - а рассматривали вариант где часть логики
вообще не на LLM? У меня kernel работает за ~1ms на CPU, ноль GPU. LLM нужен только для финального текста.
Крутой разбор, особенно про grounding metric - что без правильной атрибуции даже идеальный ответ проваливается.
Столкнулся с похожей проблемой в другом контексте: делаю AI-компаньон с persistent памятью. Flat RAG не справлялся - факт “Маша обещала позвонить” без эмоционального контекста момента (она была расстроена) превращается в мёртвые данные.
Перешёл на 7-мерный граф с somatic markers (Damasio) - каждый факт хранит valence (эмоциональный заряд при записи). Spreading activation вместо cosine similarity — граф знает что person X связан с promise Y через episode Z, а не просто “похожие эмбеддинги”.
Hybrid подход (BM25 + semantic) как у вас, но с добавлением temporal proximity boost - факты близкие по ВРЕМЕНИ к текущему моменту получают gaussian boost. Решает проблему “вспомни что было час назад” где keyword match и семантика не помогают.
Интересно было бы сравнить grounding metrics на графовом retrieval vs flat. Формального бенчмарка пока нет, но субъективно - граф реже “галлюцинирует” источник, потому что edge type = явная связь.
Сори за путаницу) случайно смешал два комментария к разным статьям. “9 агентов” это к другому материалу, не к вашему.
По поводу Яндекса и контекстного окна - согласен, маленькое окно усугубляет проблему. Но persistent state работает не через расширение окна, а через внешнее хранилище - граф с decay и spreading activation. В окно попадает только релевантное, отобранное математически. Так что размер окна менее критичен - важнее качество того что в него попадает. Буду следить за вашей будущей статьёй про Яндекс - интересная задача.
Интересное сравнение. Но ведь все 34 модели тестировались
в режиме “один запрос - один ответ”?
А реальный менеджер работает в контексте - если сотрудник
третий день подряд грустный, ты это замечаешь. Ни одна из
34 моделей этого не умеет, даже та что на 4.50.
Кстати забавный вывод получается: если добавить persistent
state поверх модели, то YandexGPT с памятью может оказаться
полезнее Claude без памяти. Помнить иногда важнее чем быть умным.
Статья про 9 агентов:
Классная архитектура, особенно “9 logical - 5 physical”.
А не думали над тем чтобы часть логики вынести вообще за
пределы LLM? Я пробовал - детерминированный kernel на CPU
за ~1ms решает КАК отвечать, а LLM только генерирует текст.
GPU нужен только для финального шага.
По сути ваш orchestrator, но вместо маршрутизации задач -
модуляция поведения.