Комментарии / Профиль Ziverpup / Хабр

@Ziverpup

Разрабатываю AI-продукты и LLM-интеграции.

Рейтинг

Подписчики

ПрофильСтатьи3ПостыНовостиКомментарии10

Obsidian как мини-CRM: как я научил канбан-доску наполняться заказами с Kwork без моего участия

Ziverpup 11 июл в 09:16

вышмат выше чем мат :)

Obsidian как мини-CRM: как я научил канбан-доску наполняться заказами с Kwork без моего участия

Ziverpup 11 июл в 00:43

Совершенно верно, это отредактированный перезалив моей статьи,которую я выкладывал пару дней назад

Моя идеальная структура заметок уснула. Теперь за порядок отвечает LLM

Ziverpup 4 июл в 13:22

За «В зоне особого внимания» отдельный плюс, десант с заметками это сильно.

Про теги и ключевые слова, тут я сам сначала путался. Разница в том, кто их ставит. Тег ты вешаешь руками и осознанно, ключевое слово алгоритм вытаскивает из текста сам, частотным анализом. То, что вы описываете, это автопростановка тегов через извлечение ключевых слов, и это реально работает. Подвох один: частотный анализ видит форму, а не смысл. Он отлично сгруппирует заметки, где буквально повторяются одни термины, но промахнётся там, где идея одна, а слова разные. На тематически узком vault'е, как у вас, это скорее сработает, потому что словарь ограничен.

Про плагин против отдельного приложения, я выбрал плагин и не жалею. Отдельное приложение на PyQt это своя оболочка, свой рендер markdown, свой парсер ссылок, по сути мини-Обсидиан с нуля. Плагин же получает готовыми и хранилище, и API к заметкам, и связи, остаётся только своя логика. Порог входа несопоставимый. Отдельное приложение оправдано, только если хочется чего-то, что в модель плагинов Обсидиана в принципе не влезает.

Моя идеальная структура заметок уснула. Теперь за порядок отвечает LLM

Ziverpup 4 июл в 08:33

Думал об этом, да. Без ИИ реализуемо, но упираешься в две стены.

Первая проблема, это извлечение смысла. Кластеризацию и атомизацию можно попробовать на классике: TF-IDF или эмбеддинги для группировки заметок по близости, извлечение ключевых слов алгоритмами вроде RAKE или YAKE. Но всё это работает с формой (какие слова встречаются вместе), а не со смыслом. Заметка про «индексы в БД» и про «оглавление книги» лексически похожи, а по смыслу нет. LLM эту разницу ловит, статистика чаще промахивается.

Вторая проблема, генерация. Флешкарты, описания к кластерам, разбиение простыни на атомы с новыми заголовками,это не поиск и не группировка, это порождение нового текста. Без языковой модели тут в принципе нечем работать, только руками.

Так что честный ответ: часть про организацию (поиск, теги, группировка по близости) без ИИ делается и делается давно. А часть про понимание и генерацию нет, там ИИ не роскошь, а единственный способ. Плагин как раз про вторую часть, первая и без него в Obsidian неплохо закрыта.

А как вы сами прикидывали, на чём хотели строить?

Моя идеальная структура заметок уснула. Теперь за порядок отвечает LLM

Ziverpup 4 июл в 08:23

Спасибо за развёрнутый рассказ, система у вас солидная, тридцать лет бумажных заметок это внушает уважение.

Про «поиск против связей»,тут, кажется, мы просто решаем разные задачи. Поиск отвечает на вопрос «где я это записывал», и pagefind с этим справляется прекрасно. Связи отвечают на другой: «что вообще связано с этой мыслью, о чём я думал рядом, но забыл». Поиск найдёт то, что ты уже помнишь и ищешь. Граф и MOC иногда показывают то, что искать бы не догадался. Для меня ценность именно в этом втором сценарии, а не в замене поиска.

Хотя соглашусь с главным: сам по себе граф-вью действительно больше красивый, чем полезный. Поэтому плагин и не пытается на него молиться, а строит MOC-хабы, то есть по сути навигационные оглавления, которые к вашему подходу с категориями-таксономиями ближе, чем к «облаку точек».

И про «программировать заметки как активную прокрастинацию»,буквально про меня,узнал себя болезненно. Половина этого плагина выросла ровно из такого настроения.

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

Ziverpup 4 июл в 04:38

Да,готов ознакомиться с наработками людей,которые тоже в этом варятся

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

Ziverpup 4 июл в 04:37

Спасибо! Обязательно ознакомлюсь

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

Ziverpup 30 июн в 08:56

Честно,пока глубокого опыта с локалками нет, работал в основном через OpenRouter, так что на reasoning/max_tokens в полный рост не наступал. Но как раз собираюсь поиграться с локальными моделями, так что ваша заметка про thinking-токены очень в тему, заберу на будущее. А поделитесь, как вы сами с этими reasoning-токенами справляетесь? Интересен рабочий подход из первых рук.

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

Ziverpup 30 июн в 08:51

Рад, что функция пригодилась,она и правда выстрадана, LLM врёт про чистый JSON с завидным постоянством. Любопытно, что мы пошли разными путями: у вас классический RAG-стек ,а я кластеризацию отдаю прямо LLM в reduce-фазе, без отдельного векторного хранилища. Мой путь дешевле в инфраструктуре, но хуже масштабируется на действительно больших объёмах и не даёт семантического поиска как побочки. На ваших тысячах заметок embeddings-подход, наверное, выиграет. Расскажете потом, как Qdrant себя поведёт,любопытно было бы тоже в этом покопаться

-1

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст

Ziverpup 29 июн в 16:16

Вопрос по факту,но все же мне есть,что сказать.Граф-вью и Canvas показывают связи, которые уже есть, но не находят того, чего не хватает: сироты, дубли тем под разными тегами, какие заметки стоило бы связать, про что собственно я и писал в статье.Это анализ содержания, а не визуализация структуры.

Про MCP,это рабочая альтернатива,но для меня было пару нюансов. Разница в трёх вещах: плагин может работать полностью локально через Ollama (ничего не уходит в облако), даёт специализированный пайплайн вместо чата (инкрементальный индекс, кластеризация, отчёт в Canvas), и ставится в два клика без настройки сервера. MCP мощнее и гибче, но это другой уровень входа,и не всегда среднестатистическому пользователю Obsidian хочется с этим возиться.

Хотя соглашусь,что для кого-то MCP закроет задачу полностью и даже лучше.

-1

Информация

Специализация