Комментарии 13
Человек который придумает реально элегантную память для агента и в целом RAG, станет кумиром. Это реальная боль.. Казалось бы пол года бился за красивые recall и прочее, перебрал десятки моделей БЯМ, реранкеров, эмбеддеров, добавил бм25, накатил еще граф сверху, но как только к системе нужно подключить другой отдел своей же компании с немного другим форматом документации, ее объёмом и структурой, все идет через одно место и нужно снова проводить тесты, гонять метрики и молиться чтобы ранее рабочий алгоритм не отвалился.
Но одну истину я уяснил, если объём и формат документации позволяют сделать через библиотекаря(навигатора, роутера), лучше сделать так. Это прослеживается более адекватно, а не надежда на вектора, это одна точка отказа - LLM, а не три - LLM, embedding, reranker. Не нужно БД лишние держать. Но это не всегда серебряная пуля и нужно реально гонять тесты, как я вначале сказал. Так что ждем гения, который даст такую пулю🙂
Я пишу свое(точнее Codex пишет), и мне реально помогает, конечно это нейрослоп в какой-то мере, но инструмент не должен быть красивым, он должен быть эффективным. Раньше у меня агенты после мегабайта проектного кода начинали дичь творить, сейчас все норм.
диалог примерно такой:
Я: продолжай
Агент:
Работал на протяжении 10s
Постановка задачи 1054b22f
Проблема: семантические запросы ошибочно маршрутизируются в лексический list_artifacts/list_open_tasks. Дефект снова воспроизведён при получении контекста этой задачи.
Цель:
отдельный маршрут семантического поиска;
Qdrant только формирует кандидатов;
каждый кандидат проверяется и загружается из SQLite;
orphaned refs доступны лишь как диагностические, не как существующие задачи.
В объёме: маршрутизация, ранжирование, подавление служебных слов, aliases, все статусы и типы артефактов, диагностические receipts.
Вне объёма: восстановление или удаление данных, миграция рабочей базы, признание индекса источником истины.
Критерии готовности:
запрос про reconstruction bundle находит релевантные материалы;
нет скрытого отката к lexical search;
8f39fa86-... показывается только как orphan diagnostic;
точный lookup остаётся fail-closed;
все write-тесты выполняются только в Docker.
Риск: утечка или ложное признание артефакта существующим. Защита: обязательная SQLite-валидация.
Первое действие: после claim исследовать текущие маршруты поиска и диагностический контур без записи в рабочую БД.
Подтверждаете старт реализации этой постановки?
Отличный разбор, особенно откликнулся тезис про "память состояния работы". Подскажите, а какими инструментами вы сами пользуетесь для удержания этого контекста? Используете готовые фреймворки (вроде LangGraph / Mem0) или это кастомная обвязка над SQLite и Git-хуками, которая собирает след работы автоматически?
К сожалению в задаче только постановка проблемы, которая в целом известна. С качественными решениями, особенно провалидированными на уровне лучше чем «мамой клянусь, на моих 3 проектах TODO-листа, агентского фреймворка и семантического хранилища памяти» есть проблема — их нет. А без валидации в этом никакого смысла нет, но это никого не останавливает, потому что сделать новый фреймворк, написать про него статью и получить свою тысячу звёзд на GitHub конечно интереснее и веселее чем оценивать его и убедиться, что с очередным Опусом фреймворк стал ухудшать процент задач, решённых за тот же бюджет токенов :)
Я оцениваю свой проект, писЯ :) его с помощью него же. Эффективность начал он показывать почти сразу, стал сильно меньше забывать контекст, можно было закрыть сессию, поднять ее в другой CLI иной моделью. Но приходилось ручками напоминать агенту правила. Но стало легче, агент сам формулировал задачи, ранжировал по приоритетам, добивал постановку, я лишь обеспечил его удобным механизмом сохранения памяти. Причем код не какой-то там слишком заумный, это список инструментов сохранения, извлечения, семантического поиска, можно сказать бойлерплейт. По сути справится мамкин вайбкодер, только он не справится. Мамкин вайбкодер не сможет сформулировать задачу. Вот самое сложное здесь.
Вот список, почему пишу сам:
1. Я тот еще велосипедист, т.к. считаю, что идеальный под себя инструмент ты можешь сделать только сам, в остальном ты будешь мириться с компромиссами.
2. В продолжение первого пункта скажу, есть мудрость: "Если хочешь изучить инструмент, сделай его сам." Звучит как тавтология, но по другому сказать сложно.
3 .Опыт - это единственная ценность, что у тебя никто не сможет отнять.
4. Большинство популярных инструментов хочет, чтобы я оформил подписку и перечислял им денежку, и их столь много, что после оплаты AI-сервисов, квартплаты, ипотеки понимаешь, что кушать в этом месяце ты будешь макароны.
Теперь по инструменту, у меня свой MCP, развернутый локально в Docker, однако никто не мешает обращаться к нему по сети, что я и делаю. Задача MCP держать модель в рамках протокола решения задачи и предоставить удобны доступ к базе данных. Причем, самым сложным оказалось не общение с БД, а держать агента в жестких рамках, на эту тему тоже есть статья, чуть ранее опубликованная, но ее пока никто не понял. :)
Вообще не спорим. Перешел с простого RAG на hindsight - совсем другая лига.
Оно жрет в пять-десять раз больше компьюта, но в отличие от рага оно во время простоя само перемалывает данные и находит связи - в том числе довольно неочевидные, строит графы знаний, что-то суммаризирует, что-то записывает как наблюдения о мире. Даже ментальные модели строит.
Но когда ему задаешь какой-то вопрос оно отвечает настолько качественно что ощущение будто это реальный человек прочитал нужную гору знаний и говорит свою экспертизу по теме.
Тот случай, когда статья хорошая, но явно написана LLM, хоть это и причёсывали.
Кажется, пора привыкать к этому унылому привкусу ллм текстов.
Главное, чтобы в тексте были свежие человеческие мысли.
Согласен, без LLM сейчас никуда, он лучше расставит пунктуацию, получит 5 в грамматике, но он пока не сформулирует идею как это может человек. В этом тексте опыт мой, и знания. а то что я свой черновик подсунул на доделку нейросетке, ну чтож такова современная реальность, человеческая жизнь дороже подписки, не стоит тратить ее день на то, что искусственный разум сделает за 5 минут.
В дополнению спрошу, как часто ходите в театр? Насколько чаще смотрите кино? Сыграть пьесу ведь намного трудозатратнее, чем прокрутить фильм. Однако явно популярнее второе. По сути так и с LLM, большой плюс в том, что они дают возможность выражать наши обрывочные мысли связным текстом. Генерят нам красивые КДПВ. Мой друг с дисграфией теперь на Дзене пишет, а он без 3 ошибок в слове не может сообшение написать.
Могу еще пример привести, сейчас почти все на "автомате" ездят, и я все реже слышу мнение "Только механика, только хардкор!", кстати этих "механиков" в потоке лекго видно, они движение на свеnофоре замедляют :)
Здpавcтвyйте. Извините, чтo пишy здеcь, нo бoльше негде. Пpoшy Ваc o пoмoщи, пoмoгите, пoжалyйcта…
Сейчаc ищy любyю pабoтy, нo пoка ничегo не нахoдитcя. Гoтoв на любyю пoдpабoткy, а cейчаc дoма еcть абcoлютнo нечегo. :-( Oт гoлoда пoчти теpяю coзнание. Oдoлжить пpocтo не y кoгo. Oдoлжите, пoжалyйcта, на едy pyблей 100-200. Хoть на бyлкy хлеба, хoть на пачкy cамых дешевых макаpoн. Мне мнoгo не надo, тoлькo пpoтянyть неcкoлькo дней пoка ищy pабoтy…
Еcли ocтавите кoнтакты, тo я гoтoв веpнyть c пеpвoй заpплаты (пеpеведy на каpтy или нoмеp телефoна). В этoм cлyчае ocтавьте cвoи кoнтакты в личнoм cooбщении. Я oбязательнo веpнy!
Пoпoлните, пoжалyйcта, нoмеp телефoна на любyю cyммy: 8 (952) 133-65-10 (баланc нoмеpа телефoна y oпеpатopа или пo CБП)
Заpанее бoльшoе Вам челoвечеcкoе cпаcибo
Практический опыт: 100+ сессий Claude Code в день, файловая память.
Использую ровно тот подход, который описан в статье как “три файла”. CLAUDE.md хранит неизменяемые правила проекта (паттерны кода, ограничения безопасности, стиль). CHECKPOINT.md хранит текущее состояние: последнее действие, следующий шаг, и список DO_NOT_REDO, чтобы после compaction агент не переделывал уже выполненную работу.
Третий файл — topic-memory.md, по одному на рабочий поток. Каждый Telegram-топик (использую как диспетчер проектов) получает свою память с целями, блокерами и платформенными заметками.
Почему файлы, а не БД: git diff показывает, что именно изменилось в памяти между сессиями. Это бесценно для отладки, когда агент начинает вести себя странно. С базой данных такой прозрачности нет.
Главный инсайт после полугода: самое важное в памяти агента — не что он помнит, а что он НЕ должен переделывать. Секция DO_NOT_REDO экономит больше токенов и времени, чем все остальные оптимизации вместе взятые.
Я не спорю, каждый работает так, как привык, как ему удобнее, в крайнем случае,как заставляют? чтобы не быть голословным.
вот реальный фрагмент из сессии, где ни единого md, все только в БД, причем такую информацию мне даже 2b модель способна выдать:
что известно по проекту sloplesscode в памяти
Работал на протяжении 2m 47s
Что хранится о SloplessCode
SloplessCode задуман как MCP-система проектной памяти и управляемого рабочего процесса для AI-агентов. Она хранит контекст, правила, задачи, решения, подтверждения и подсказывает безопасное следующее действие. Система рассчитана на произвольные проекты, не только на собственную разработку.
Состояние памяти
Готовность: limited_pilot_ready, 55/100
Задачи: 32
Предложения улучшений: 30
Активные правила: 12
Decision memoirs: 20
Разделы документации: 3
Компоненты: 0
Runtime hints: 0
То есть рабочий процесс и накопленные решения описаны неплохо, но архитектурная карта компонентов пока не загружена.
Основные принципы
MCP является каноническим каналом памяти и управления работой.
Агентский UX проверяется через публичный MCP-интерфейс.
Live-runtime действия требуют явного согласия оператора.
Docker-проверки отделяются от экспериментов с живыми данными.
Универсальные спецификации не должны содержать детали конкретного проекта.
Нужно исправлять причины, а не симптомы.
Частные случаи должны решаться общими, data-driven механизмами.
Автономность агента нельзя выводить из фраз вроде «продолжай»: она должна быть явно ограничена областью и временем.
Последние открытые направления
34d8175c-... — явные границы автономного режима агента.
26ec82c4-... — диагностика ошибочной маршрутизации через публичные incident-пакеты.
c22ec2dd-... — компактные stage-aware подсказки вместо повторения полного контекста.
4568b52c-... — профили совместимости для stateless MCP-клиентов.
4a17e4af-... — периодические проверки того, помнит ли агент актуальный контекст.

Почему мы спорим о памяти для AI-агентов