Комментарии 7
Да, проблема на лицо. LLM сливают токены на ориентацию и тянут устаревшие решения. Для такой задачи markdown + явный граф связей выглядит гораздо устойчивее и ближе к реальной работе, чем вся эта “магия” с эмбеддингами. Вопрос один: как держать консистентность и актуальность, когда база разрастётся? Там начнутся расхождения и устаревшие паттерны. А в целом, это уже похоже на рабочий инструмент
Спасибо, вопрос отличный. Домены помечены на обновление данных - у каждого свой интервал, в зависимости от скорости изменений в области. Алгоритмы и математика пересматриваются редко (год+), AI-инструменты и оптимизация инференса - через 60 дней. Когда домен достигает своего интервала, карточки в нём идут в очередь на пересмотр.
Спасибо вам за статью и описание подхода!
Вопрос про пересмотр (по расписанию). Предположим, за прошедшее время накопилось несколько карточек. Они частично дублируют друг друга, какие-то описанные подходы перестали быть бест-практис, хотя по-прежнему технически актуальны.
Это все ручная компиляция?
И еще. Вы остановились на двухуровневой структуре: домены и статьи. Плюс - "плоские" ссылки. Экспериментировали ли с более сложными иерархиями?
И еще 2. Остаётся ли соблазн сберечь сырые исходники, оставив ссылки на них из статей?
И еще 3. Бывает ли, когда вам ценно сохранить в статье хронологию исследования или какого-то проекта? Как поступаете?
Спасибо ещё раз :)
Да с тем же самым сталкиваюсь, по поводу архитектурных решений 5 летней давности... Проблема еще в том что если ты сам не имеешь актуальную экспертизу, ЛЛМ быстро убедит тебя в том что все в порядке, и что бест практис проектирования сейчас именно такой, в сфере внедрения ИИ, где сейчас изменения в подходах и в инструментарии меняются каждые полгода это реально проблема.
Крутая статья, главное полезная!
Интересно про ресерч, так как я иду примерно тем же путем (сохранение сырых данных, фильтрация, - у меня дальше ревью/сверка данных с источниками и сверка корректности расчетов, потом как раз упаковка в локальную базу для дальнейшего использования полученных данных и определение связей между этими данными.
И спасибо за описание понятным языком для таких как я (кто не очень погружен в данное направление, но хочет немного понимать, как там все работает)

785 статей. 26 доменов. Для агентов, не людей