Ziverpup4 июл в 05:35

Моя идеальная структура заметок уснула. Теперь за порядок отвечает LLM

10 мин

11K

Машинное обучение * Open source * JavaScript * Программирование * GTD *

Кейс

Комментарии 11

AndreyDmitriev 4 июл в 07:02

Эх, а у меня именно что связи-линки между заметками не прижились совершенно. Я веду их в маркдауне, и даже пытался, но с практической точки зрения этот граф мне мало о чём говорит, разве что выглядит красиво. Гораздо важнее (для меня) хороший поиск. Даже если заметки будут лежать сплошным списком всё в кучу, то при наличии поиска всегда можно отыскать нужные. Обсидиан мне не очень нравится редактором, я купил и пользую Typora. Так что сложился примерно такой "воркфлоу" - заметки в маркдауне раскиданные по папкам (папки выбираются по принципу "первое, что придёт в голову"). У каждой есть простой yaml заголовок, в котором можно указать классические категории и теги. Категорий может быть несколько, например "язык программирования", и т.д. Ссылаться с одной заметки на другую тоже не запрещается, само собой. Заметки лежат в гитхабе, и там настроена сборка при помощи hugo, она автоматом запускается, как только я меняю или создаю заметку, так что они потом доступны из браузера. Иногда я напускаю на заметку ИИ, чтобы автоматом заполнить заголовок и причесать текст. Категории - это таксономии в hugo. Важно, что используется pagefind, который это дело индексирует, так что я могу просто искать по тексту (либо вывести списком по категории или тегу). Использование hugo даёт возможность использовать в заметках шорткоды, там картинки в галерею организовать, или pdf прямо в заметку вставить и т.д. Плюс всё это довольно увлекательно "программировать" в качестве активной прокрастинации, тему и стили править время от времени, добавлять dart sass, всякие новые шорткоды, вкорячивать местами JavaScript, и т.д. Вообще у меня три заметочника сейчас — электронный на hugo, затем в планшете reMarkable, в основном для быстрых рукописных, приватных и сканов документов, немножко книжек там до кучи, и совсем бумажный, тут я марки меняю, был Молескин, потом Leuchtturm1917, сейчас Standard Issue Notebook от DesignWorks, ибо ничего лучше хорошей записной книжки и авторучки типа Паркера, Монблана или Дюпона человечество не придумало. Бумажный, кстати, наиболее часто используется, точнее ежедневно, мне руками на бумаге писать приятнее, я веду такие заметки уже почти тридцать лет, практически без перерывов. Там у меня за годы выработалась нехитрая система с оглавлением и маркерами дат, так что с поиском особых проблем тоже нет. Как-то так.

Ziverpup 4 июл в 08:23

Спасибо за развёрнутый рассказ, система у вас солидная, тридцать лет бумажных заметок это внушает уважение.

Про «поиск против связей»,тут, кажется, мы просто решаем разные задачи. Поиск отвечает на вопрос «где я это записывал», и pagefind с этим справляется прекрасно. Связи отвечают на другой: «что вообще связано с этой мыслью, о чём я думал рядом, но забыл». Поиск найдёт то, что ты уже помнишь и ищешь. Граф и MOC иногда показывают то, что искать бы не догадался. Для меня ценность именно в этом втором сценарии, а не в замене поиска.

Хотя соглашусь с главным: сам по себе граф-вью действительно больше красивый, чем полезный. Поэтому плагин и не пытается на него молиться, а строит MOC-хабы, то есть по сути навигационные оглавления, которые к вашему подходу с категориями-таксономиями ближе, чем к «облаку точек».

И про «программировать заметки как активную прокрастинацию»,буквально про меня,узнал себя болезненно. Половина этого плагина выросла ровно из такого настроения.

Iscander_Che 4 июл в 07:32

Не пытались прикинуть, как это можно реализовать БЕЗ ИИшенки? Я просто буквально вчера размышлял на эту тему, как запитонить это дело. Но пока ни к каким выводам не пришёл.

Ziverpup 4 июл в 08:33

Думал об этом, да. Без ИИ реализуемо, но упираешься в две стены.

Первая проблема, это извлечение смысла. Кластеризацию и атомизацию можно попробовать на классике: TF-IDF или эмбеддинги для группировки заметок по близости, извлечение ключевых слов алгоритмами вроде RAKE или YAKE. Но всё это работает с формой (какие слова встречаются вместе), а не со смыслом. Заметка про «индексы в БД» и про «оглавление книги» лексически похожи, а по смыслу нет. LLM эту разницу ловит, статистика чаще промахивается.

Вторая проблема, генерация. Флешкарты, описания к кластерам, разбиение простыни на атомы с новыми заголовками,это не поиск и не группировка, это порождение нового текста. Без языковой модели тут в принципе нечем работать, только руками.

Так что честный ответ: часть про организацию (поиск, теги, группировка по близости) без ИИ делается и делается давно. А часть про понимание и генерацию нет, там ИИ не роскошь, а единственный способ. Плагин как раз про вторую часть, первая и без него в Obsidian неплохо закрыта.

А как вы сами прикидывали, на чём хотели строить?

Iscander_Che 4 июл в 10:41

Про ваши мысли только так (не сердитесь, это, как на Хабре принято говорить, сарказм; хотя я предпочитаю слово "ирония"):

"- Вы не могли бы перечислить все вопросы?
- Сколько групп работает в нашем тылу? Точное место выброски, их маршрут и задачи? Цель всего десанта?
- Ну у вас и аппетит!"

(с) Х/ф "В зоне особого внимания" /s

У меня запросы значительно меньше: собрать всю эту разрозненную шушеру заметок в одно облако (хоть тэги, хоть ссылки, мне этого будет на первом этапе достаточно). Ну, или в несколько взаимосвязанных облаков. На каком-то этапе ведения заметок у меня случился крупный фейл. Один из проектов выпятился настолько, что его пришлось выделять по итогам в отдельный vault. А из него - ещё один. В итоге ни один не взлетел как следует, и все они сидят по отдельности. Совместить ваулты точно ни фига не выйдет. Так хоть навести порядок в каждом из них по отдельности.

Тэгировать, чисто теоретически, можно по ключевым словам из текстов. Если это отдельный ваулт, связанный с конкретной тематикой, то по частотному анализу выявить нужные паттерны получится. По крайней мере, на одном проекте это стопудово возможно. И понавтыкать в записи нужных тэгов. Автоматизируется легко.

Со ссылками - сложнее. Тут нужна смысловая база. Это уже, к сожалению, ручная работа. Но по тем же тэгам можно хоть самому ориентироваться, что где, и работа займёт существенно меньше времени. Вот только пока не решил, средствами самого Обсидиана это реализовывать (в виде плагина) или отдельное обсидианоподобное приложение писать на том же PyQt или чем-то вроде него.

Ziverpup 4 июл в 13:22

За «В зоне особого внимания» отдельный плюс, десант с заметками это сильно.

Про теги и ключевые слова, тут я сам сначала путался. Разница в том, кто их ставит. Тег ты вешаешь руками и осознанно, ключевое слово алгоритм вытаскивает из текста сам, частотным анализом. То, что вы описываете, это автопростановка тегов через извлечение ключевых слов, и это реально работает. Подвох один: частотный анализ видит форму, а не смысл. Он отлично сгруппирует заметки, где буквально повторяются одни термины, но промахнётся там, где идея одна, а слова разные. На тематически узком vault'е, как у вас, это скорее сработает, потому что словарь ограничен.

Про плагин против отдельного приложения, я выбрал плагин и не жалею. Отдельное приложение на PyQt это своя оболочка, свой рендер markdown, свой парсер ссылок, по сути мини-Обсидиан с нуля. Плагин же получает готовыми и хранилище, и API к заметкам, и связи, остаётся только своя логика. Порог входа несопоставимый. Отдельное приложение оправдано, только если хочется чего-то, что в модель плагинов Обсидиана в принципе не влезает.

Iscander_Che 4 июл в 14:37

Спасип за респект. Я не сразу въехал, чего учудил цЫтатой..))

Про второе. (С первым-то я полностью согласен.) Да, согласен. Это надстройка. Но я (пока) не вижу иного выхода из положения.. Мне нужно наладить связи между записями. Как это сделать? Причём на основе тегов или любой подходящей инфы. Пайтон обладает отличным механизмом для анализа текстовой информации. Чем не решение?

weirded 5 июл в 06:03

Отбитые вы все, владельцы баз знаний, занимаетесь непонятной хернёй, вместо работы, переливаете из пустого в порожнее, цифровые скопидомы.

//сказал владелец 23мб plaintext obsidian vault возрастом 4 года

astenix 5 июл в 16:11

Скажите вашему ИИ, что рутинная работа по сортировке всего в картотеке — важнейшее время для для ученых, когда можно порассуждать. А компьютеры у нас это время отобрали.

Идея исчерпывающе представлена в книге Даниила Гранина «Эта странная жизнь» 1974-го года.

AndreyDmitriev 5 июл в 16:53

Я эту книгу прочитал в тот момент, когда уже вёл рукописные заметки несколько лет (в большей степени как инбокс для системы GTD Дэвида Аллена), и таким образом получил подтверждение, что всё делаю правильно. После прочтения чуть подкорректировал систему и стало совсем хорошо.

sunnyfox 7 июл в 12:10

Так странно читать ИИ-текст от первого лица, понятно, что обработка, но ощущение, будто нейронка уже сама рассуждает про организацию данных 😁

Зарегистрируйтесь на Хабре, чтобы оставить комментарий