kolkoni20 фев в 17:26

Data Structure Protocol (DSP): как дать LLM-агентам «долговременную память» о большом репозитории

Средний

6 мин

8.9K

Программирование * Искусственный интеллектУправление разработкой * Управление проектами * Natural Language Processing *

Обзор

Комментарии 12

NTDim1973 21 фев в 05:45

Пустой, только что созданный репозиторий без мр...

Как в DSP решается конфликт актуальности между графом структур данных и реальным кодом при быстрых/массовых изменениях (много PR в день, рефакторинг модуля)? Насколько сильно отстаёт «долговременная память» и кто/как принудительно синхронизирует?
Семантический поиск по графу + LLM-инференс для ранжирования — это быстро и дёшево? Каков типичный latency и стоимость одного осмысленного запроса по большому репозиторию (10k–100k файлов) при использовании DSP?
Версионируемость графа структур выглядит красиво на бумаге, но как обрабатываются merge-конфликты в самом графе при слиянии веток, особенно если разные ветки по-разному переименовывали/рефакторили одни и те же сущности?

kolkoni 21 фев в 10:54

Можно запустить и посмотреть... Что-то доказывать для абстрактных проектов в вакууме не вижу смысла. У меня на проектах работает отлично, если хотите, попробуйте на своих проектах.

NTDim1973 21 фев в 16:39

Почему абстрактных ?

Вот у вас какая статистика ?

kolkoni 21 фев в 18:16

Статистики по токенам не веду, только опыт личный и команды, что агент перестает тупить, особенно в монорепе с 50+ сервисами и при сложных задачах, когда логика проходит через несколько микросервисов.

kochetkov-ma 21 фев в 12:41

Кажется grepai решает проблему быстрее одним запросом в мсп получает либо нужный метод, либо текст, либо дерево вызовов. Правда настраивается сложнее: нужно локально поднять небольшую модель, проиндексировать проект, подключить и главное заставить через хуки Claude Code пользоваться именно семантическим поиском вместо базовых Glob/Grep утилит.

Исходный проект: https://github.com/yoanbernabeu/grepai

Плагин под ClaudeCode где решена проблема выбора инструмента через хуки и автоматизированная установка: https://github.com/kochetkov-ma/claude-brewcode

kolkoni 21 фев в 18:14

Интересный проект, спасибо!

alloky 21 фев в 20:15

Привет, спасибо за интересный подход! А вы не пробовали работать с библиотекой https://github.com/ruvnet/ruvector ? Там используется интересный подход, позволяющий строить локальный RAG и GNN, который дообучает веса в зависимости от запросов к сущности (насколько я правильно понял). Было бы здоров использовать это совместно с вашим подходом описания (де факто) спеки репозитория для ускорения поиска по ней и экономии контекстного окна

kolkoni 21 фев в 23:15

О, круто, спасибо, поэкспериментирую

whiteroller 24 фев в 05:18

А чем принципиально ваш подход отличается от графовой БД ? Например Neo4j/Helixdb?

kolkoni 24 фев в 06:33

Графовая БД это метод хранения, dsp можно и там хранить. В самом скилле - клишка и инструкция для агента, как что-то искать, как документировать, как менять и т.д. Грубо говоря это методология памяти о проекте, как в нем что устроено и для чего/где используется.

Petroleum_man 15 мар в 15:29

Прикрутил к клоду, есть ощущение, что клод по большей части игнорирует этот скилл. В основном использует стандартные Read, Glob, Grep. В claude.md промпт по использованию dsp добавил, skill подгрузился, claude его видит и использует, если его прямо об этом попросить в терминале

kolkoni 15 мар в 16:58

Я через курсор работаю у меня рул - "для кода всегда используй dsp". Да, скиллы такая штука, видеть он их видит, но явно не всегда юзает, поэтому всегда либо рулы дописываю, либо в чате прям прошу использовать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий