Как мы строим Memory OS: от flat RAG к управляемому когнитивному сжатию

Мы прогнали через o4-mini больше 300 вариантов промптов с разными режимами reasoning_effort и обнаружили, что чем «умнее» модель рассуждает, тем хуже она извлекает структуру: начинает «улучшать» схему по своему усмотрению, объединять то, что должно быть раздельным, и ломать детерминизм пайплайна.
Это технический отчёт о том, как мы строили Superagent Memory OS — систему агентной памяти, которая на сегодня удерживает граф из десятков тысяч концептов и почти 2.4 миллиона рёбер поверх ~106.7 миллиона токенов из четырёх разных корпусов. Внутри: переход от flat RAG к Memory OS, парадокс reasoning и слой Semantic Mapper (–48% токенов, качество с 5.2 до 7.11), staging database и сжатие 34 805 сырых mention'ов до 7 339 канонических концептов, иерархический retrieval через UMAP+HDBSCAN+Optuna и 7 220 weighted links, четыре фазы отладки агента на LongMemEval (22+ шагов → 4–6), эксперимент EXP-GARDENER-001 про то, почему Flash-модель плодит ложные связи, bi-temporal модель фактов, MCP как суверенный интерфейс памяти и психологический слой с контролируемым словарём эмоций.
Главный тезис: retrieval не равен памяти.