ohld4 июн в 15:21

Почему Claude Code и Codex не ускоряют команду: у компании нет общей памяти

Простой

6 мин

18K

Python * JavaScript * Go * Анализ и проектирование систем * PHP *

Туториал

+15

Комментарии 38

ohld 4 июн в 15:26

Долго не мог решиться и выбрать какой-нибудь инструмент для "правильной" работы с контекстом. Но увидел gbrain от создателя gstack и мой выбор остановился на нем.

Это также стало поводом для установки Hermes Agent -- имхо как личный ассистент работает в разы круче чем Claude или Codex, хотя под капотом у меня используется Codex. Все-таки очень крутой харнесс они сделали, всем советуют проинвестировать свое время и разобраться.

Geratron69 5 июн в 11:23

Память делал для агентов как раз для этого (не заменяет базы знаний, а дополняет). Отлично ложится на герпеса и других опенклавов https://github.com/holetron/hindsight-mempalace

kirill702b 5 июн в 12:31

а ты до gbrain не имел в обсидиане wiki, которую агент также сам улучшает по завету Карпатого? какая главная фича grain по сравнению с этим? более продвинутый поиск? или я неправильно понял?

ohld 5 июн в 12:39

я, конечно же, хранил все локально в markdown файлах. Просто в какой-то момент их становится слишком много, а выкидывать или выносить части не хотелось -- ради полноты картины.

Я понимаю, что при большом числа документов лучше использовать RAG для поиска. В GBrain поиск объединяет результаты из разных видов поиска (почитай Readme, там хорошо написано).

Также мне нравятся фичи синтеза новых знаний и более умная раскладка файлов в волте (в gbrain терминологии это называется source). Я понимаю, что большие файлы хорошо бы пилить на маленькие, это все тоже делается автоматически.

kirill702b 5 июн в 15:05

RAG на эмбеддингах если не сделан под конкретную структуру данных ручками обычно работает отвратительно, поэтому я с большим недоверием отношусь к проектам, где он по умолчанию как-то используется, типа потому что будет работать хорошо) я просто свою wiki сразу хранил как репозиторий и скрипты к нему рядом для openclaw или codex'а не важно

ohld 6 июн в 08:32

я вижу, какие люди работают над gbrain, и решил, что они лучше меня шарят в рагах, чем я. Поэтому не изобретаю велосипед, а использую современные тулы, чтобы самому на практике все понять. That's the way

kirill702b 6 июн в 17:46

Гарри Тан 10 лет код не писал, а он главный контрибьютор) на втором месте claude code, а агенты пишут первокласный код, если это не касается разработки агентов, но я может что-то упускаю

ohld 7 июн в 15:47

Я сильно верю в то, что его поделками пользуются и котрибьютят туда много опытных фаундеров из тусовки YC. Если он есть, говнокод будет исправлен.

Tatiana_Litvak 4 июн в 15:33

Только начинаю вникать в подробности, спасибо, что пишете для чайников )

ohld 4 июн в 15:37

Всегда рад! Если интересно подраскрыть еще какую-нибудь тему — напишите какую)

chezana 4 июн в 16:03

Спасибо! Осталось уробороса уговорить, а то он в MD продолжает всё хранить)

ohld 4 июн в 16:06

что за уроборос?)

chezana 4 июн в 18:48

Который в феврале зарелизили, вот же:

https://github.com/razzant/ouroboros

arantar 4 июн в 18:53

Нужен слой ещё для сбора и каталогизации данных, так как они бывают очень разного формата (текст, аудио, видео, картинки и т.п.) и из различных источников

ohld 4 июн в 19:28

Тексты, кстати, хорошо каталогизируются внутри gbrain. А файлы, если честно, можно также по эмбеддингам находить. Из всего можно сгенерировать текст описания.

thethee 4 июн в 19:22

Да пора на самом деле в репозиториях в компании завести папочки .codex, .claude которые команой будут поддерживаться, набор скиллов общий для работы с продуктом, AGENTS.md в каждой папке. Одна фигня все с ними сидят, просто не признается никто, потому что позиция руководства "будет утечка кода, так что нельзя, но ставить вам задачи с нереальными сроками мы все равно будем".

Вместо того чтобы рандомный девопс случайно положит инфраструктуру когда захочет что то "по быстрому" и "лёгкое" сделать, проблему решает единый инфровый скилл в котором расписано как все должно и не должно работать. Делается один раз больно и тяжело, а потом развивается потихоньку и агент вполне себе живёт нормально в рамках, понимая что можно, а что нельзя сделать.

И учетка специальная чисто для агента, которой можно делать определенные вещи. А хочешь что то в пайпе поменять - вайбкодь на здоровье, но убедись что все соответствует стандартам и дождись ревью.

Короче все настраивается, будь желание.

ohld 4 июн в 19:25

Я думаю, мы скоро увидим целый рой стартапов и B2B SaaS, решающие и эти проблемы. Ведь у всех компаний одни и те же проблемы наступают.

LeGront 5 июн в 01:31

Теперь стоит вопрос - могут ли нейронки писать код дешево. 😆

ohld 5 июн в 07:13

Конечно могут) все заливается венчурными деньгами очень сильно, так что сбросы лимитов и бесплатные токены раздаются направо и налево

LeGront 5 июн в 07:30

Ну на корпоративной подписке Клода расход токенов сонетом где-то 1$ в минуту, опус 3$ в минуту. Одно хорошо, что агент пишет код 5 минут и потом я 2 часа правлю. Или проверяю, что все работает

ohld 5 июн в 07:54

Звучит так, что у вас тратится контекст куда-то не туда. Изучите, какие файлы и каких размеров читает агент каждый раз перед выполнением работы, возможно, там есть файлик на много тясяч строк, который забивает весь контекст, оставляя под полезную деятельность очень мало места.

Вот этот скилл может помочь в этом:
https://github.com/cursor/plugins/blob/3347cbab5b54136f6fba0994c3a01a56f7fb7fca/cursor-team-kit/skills/thermo-nuclear-code-quality-review/SKILL.md

LeGront 5 июн в 08:41

На самом деле вопрос в цене токенов на корпоративной подписке (очень очень дорого). У меня есть тот же клод за 100 в месяц и мне его лимитов хватает для работы над своим проектом.

ohld 5 июн в 11:41

По себе могу сказать, что любой подписки за $200 хватает на абсолютно все задачи. Почти никогда не упирался ни в какие лимиты.

nektobit 5 июн в 02:06

Тоже пришел к этой проблеме, но у меня свое видение решения этого вопроса: репозиторий спецификаций с версионированием. Буду писать сервис под свою команду.

ohld 5 июн в 07:14

Очень советую прочитать readme у gbrain. Может, вдохновит

basili4-1982 5 июн в 07:59

Проблема не в том что нет правил. А втом что ии может в любой момент времени игнорировать их. Например у нас сразу указано правило 0 запрет на демтруктивные действия и они даже описаны. Но регулярно с талаиваюсь стем что ии удаляет volume проектов. Поэтому на прод их не пускаю

ohld 5 июн в 08:28

Значит, что агент почему-то их не читает. Вообще, в современных агентах типа Claude Code или Codex есть нативные инструменты / hooks под такие супер важные штуки. Возможно, вы не донастроили правильно агента. Расскажите ему про эту проблему -- пусть он предложит trusted решения без костылей.

diflux 5 июн в 08:57

У меня прямо вот каких-то знаний в проекте обычно нет, кроме как архитектуры и истории принятия решений. И под свой флоу я создал продукт Work Graph и выложил в оупенсорс. Для соло и пет-проектов очень удобно.

Юзер флоу такой: В архитектуру добавляем домены (верхний уровень архитектуры).
Далее: Анализ вопроса > Выбор решения > Создание эпика/задач > Выполнение > Тестирование > Сохранение

Получился навигатор для AI-разработки.

Как будет время, напишу статью, пока руки не дошли.

ohld 5 июн в 11:42

Круто! Рекоментую изучить проект paperclip - немного напомнило ваш сетап.

diflux 5 июн в 12:32

Если коротко, то Work Graph пытается решить фундаментальную проблему AI-разработки: разрыв между намерением человека и исполнением машины.

Paperclip управляет агентами как сотрудниками, но не проверяет качество их работы.
Work Graph создаёт слой смысла (BVC-атом), связывает его с кодом, а затем может автоматически верифицировать, что код действительно реализует задуманный смысл.

Это делает Work Graph не просто трекером задач и не просто оркестратором, а инструментом формальной верификации соответствия кода намерению. И граф здесь — это не только связи между задачами, но и связи между атомами смысла (BVC) и конкретными строками кода.

ohld 5 июн в 12:40

оффтопик: конечно генерация ответов через Claude сильно палится) и я не про длинные тире конечно же

diflux 5 июн в 16:25

да — длинные тире (alt+0151) я всегда сам пишу, а аналитические разборы отдаю нейронке

it-infinite 5 июн в 10:52

Как вы собираетесь проверять код клтрый пишет агент? Тоже с помощью ИИ? Люди говорят о проблеме, которую вы или игнорируете или не понимаете. Ваша задача продать компании инструмент. Поэтому вы всегда будете искать оправдание что виновен не ИИ… На написание кода всегда уходило минимум времени. Это никогда не было узким местом. А вот проверка 100 или 1000 строк, решение конфликтов слияния в командной репе, поиск месиа где баг возник анализ кода… Вот это да, узкое место. Поэтому люди и говорят что оно не работает! LLM в соеднем ошибается в 30% в том, что знает идеально. Это очень высокий уровень ошибки! Вы агентами просто упростили и без того простое, и это усложнило и без того сложное. Вот и итог, работа стала медленее ибо узки места остались… Вы не решаете проблему ИИ агентами, вы создаёте новую!.. Хоть расшаривай, хоть нет, от этого архитектура LLM лучше ге станет!..

akardapolov 5 июн в 11:31

решение конфликтов слияния в командной репе

Решается правильной организацией процесса разработки.

Часто это сигнал что проблемы в архитектуре приложения и/или межкомандом взаимодействии (Conway’s Law в действии, типа конфликты слияния - такое отражение проблем в коммуникациях внутри организации).

ohld 5 июн в 11:48

В частности, сейчас это решается цепочкой из агентов, где каждый выполняет свою задачу:

идея -> спека -> план -> разработка через goal -> тестирование локально -> PR -> ревью другими агентами с нуля -> фиксы и деплой.

Но а в конце нужен человек, кто возьмет ответственность за результат. Пока что хе-хе

ohld 5 июн в 11:45

Судя по моему опыту, ИИ всегда по началу делает ошибки. Но с каждой итерацией результаты становятся лучше, если научить агента запоминать и учиться на ошибках.

А выстраивать ИИ процессы так, чтобы агенты перестали ошибаться, это современный и очень востребованный навык. Как в низкоуровневую разработку непросто влиться без опыта, так и с ИИ: не получится просто закинуть промпт и сразу получить правильное решение, хотя и OpenAI, и Anthopic подходят к решению этой задачи все ближе и ближе.

mmoustaf 6 июн в 18:30

>Не потому что модель тупая - она гораздо умнее всех нас. А потому что вы дали ей >неполную карту мира.

Не привязываясь к очеловечиванию модели, природа которой сугубо вероятноста, в самой этой фразе заложено противоречие

Мы все помним так нелюбимые задачи на собеседованиях про число мячей для гольфа в автобусе, мойщиков окон в Нью-Йорке, но именно эти задачи очень хорошо показывают умение кандидата и человека в целом работать с неполной информацией. Причем не просто работать, а получать достаточно близкий к реальным цифрам ответ.

Вот и получается, что либо модель умнее, либо она не умеет работать с неполными данными

Либо под умом я и автор понимаем разное, исключать нельзя

traiilway 7 июл в 14:47

По разделению контекста и инструментов - отлично подмечено. Но тут в любом случае нужно кому-то надзирать над этой общей базой знаний, поддерживать актуальность решений, архивировать старые факты, обновлять индекс. При этом нужно убедиться, что важные и актуальные решения попадают в эту систему, не остаются в переписках и устных договоренностях. То есть для начала надо подключить рабочие источники данных в единую систему. Гарри и сам пишет: "My agent ingests meetings, emails, tweets, voice calls, and original ideas while I sleep". При этом еще возникает вопрос пересечения контекстов и противоречий в фактах (кому отдать предпочтение при выборе источника SSOT).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий