Как я превратил Codex в персонального Джарвиса / Комментарии / Хабр

UPD: После проб того, как он анализирует тебя и твое окружение, скажу: "Попробуйте, это того стоит". Читает лучше психотерапевта и очень глубоко понимает "между строк".

Модель: GPT-5.3 Extra High

AppCrafter 14 часов назад

profile/ — стабильная информация обо мне areas/ — основные сферы жизни: работа, здоровье, обучение, дом events/ — хронология и важные изменения preferences/ — вкусы, ограничения, паттерны, способы работы roles/ — режимы ответа под разные задачи skills/ — локальные процедуры и правила my-notes/ — короткие заметки и временные фиксации assets/ — источники: книги, Telegram-архивы, внешние индексы inbox/ — сырые, еще не нормализованные штуки

Пару вопросов:

Насколько велики эти файлы?
Каким образом LLM использует эти файлы? Например, прочитывает все заново каждый раз или как-то по-другому?

Если будете продолжать эту тему, то мне лично было бы интересно почитать про то "как устроена сама память"

egorkozelskij 6 часов назад

Сами “рабочие” текстовые слои пока не очень большие: profile, areas, events, preferences, roles, skills, my-notes, inbox суммарно занимают меньше 300 КБ (Это его инструкции по ролям, скилы, описание структуры его памяти, скрипты, как ему эту память самостоятельно дополнять и ориентировать в ней). Самый тяжелый слой здесь не память как таковая, а assets — он уже весит около 800 МБ, потому что там лежат книги, Telegram-экспорты, расшифровки голосовых сообщений и другие источники - это сырая, нормализованная им же база, которую он строит в иерархии (по типу графа по агрегированным сегментам - годы, важные события, личности и тд - он тоже это определяет сам) и обращается к ней уже из "мозга".

LLM не перечитывает все файлы на каждый вопрос. Логика другая: сначала по инструкции определяется, какая область вообще нужна, потом точечно открываются только релевантные файлы, и уже на их основе строится ответ. То есть это не “каждый раз скармливать весь архив”, а скорее иерархический retrieval поверх Markdown иерархической структуры со связями в нормализованную сегментированную базу.

Если совсем кратко, сама память держится на четырех вещах: маршрутизация по слоям, чтобы каждый факт попадал в свой тип файлов; нормализация новых данных, чтобы сырые заметки и архивы превращались в короткие структурированные записи; правила обновления базы, чтобы не плодить дубли и не ломать иерархию; и постоянное разделение между источниками и нормализованной памятью. Без этого любая такая система довольно быстро превращается в свалку: информации много, а быстро найти нужное и доверять ему уже трудно.

Как я превратил Codex в персонального Джарвиса

Комментарии 3

Публикации