Комментарии 12
Интересный подход... Почему Вы решили не использовать готовые когнитивно-символьные системы (КСС)? Ведь, по сути, те манипуляции с данными, которые Вы описываете: выделение сущностей, связей и их интерпретация через LLM - очень напоминают работу с классическими КСС. Рассматривали ли вы их как альтернативу или дополнение или как нейро-символьную систему?
Спасибо за интересный вопрос. Нет, к сожалению ещё не получилось “пощупать" графовые инструменты и получать пользу от онтологий через них. Хотел для начала посмотреть на Neo4j и Graphiti. Как считаете, какой инструмент лучше всего посмотреть для первичного погружения в данную концепцию? Чтобы быстро попробовать и понять принципы?
Тут важно уточнить: я имел в виду КСС не просто как способ хранения (графы), а как архитектуру, где символьная логика дополняет нейросетевую. В вашем "Архивариусе" это позволило бы системе не просто искать документы, а буквально "понимать" правила предметной области. Хотя графы дадут Вам отличную навигацию по знаниям, но именно символьный подход (КСС) превратит Ваш проект из "умной библиотеки" в систему, способную к верифицируемым выводам и глубокой аналитике.
Если говорить об инструментах для быстрого погружения именно в концепцию КСС (где есть логический вывод, а не просто связи), я бы советовал посмотреть на:
Grakn (TypeDB) - это гораздо ближе к КСС, чем Neo4j. Она позволяет описывать сложные схемы данных с логическим выводом. Система сама "додумывает" новые факты на основе правил, которые вы прописали. Это отличный мостик от простого поиска к когнитивной системе;
ConceptNet - это готовый огромный граф "здравого смысла". Его часто используют в КСС как "внешние мозги", чтобы LLM понимала базовые связи между вещами, которые не всегда есть в личных документах. Но, надо быть внимательным, т.к. сам проект почти "застрял на месте";
LangGraph (от LangChain) - если хочется остаться в рамках Python. Это не база данных, а фреймворк для создания агентов в виде графов состояний. В нем можно реализовать циклы рассуждений и проверку логических правил, что и превращает связку "LLM + база" в "подобие" КСС;
Если хочется настоящей "когнитивной" логики, взгляните на OpenCog Hyperon. Самый доступный способ собрать систему, где LLM работает не в одиночку, а в связке с логическими проверками и циклами рассуждений.
Neo4j и Graphiti, о которых вы упомянули - это отличные хранилища (первое - универсальное, второе - для динамической памяти), но саму "когнитивную" логику (правила вывода) в них придется достраивать сверху кодом или промптами, но все равно это будет только имитация логики, а не сама логика.
P.S. И еще один важный момент: в профессиональном сообществе разработчиков КСС классические "графовые знания" (в духе простых узлов и связей) уже понемногу начинают считать "вчерашним днем".
Пока индустрия LLM бьется над увеличением контекстного окна, когнитивно-символьные системы развиваются семимильными шагами. Современные КСС уходят от простых графов к более сложным структурам - гиперграфам и типизированным пространствам знаний (вроде AtomSpace в Hyperon). Они позволяют описывать не просто связи "объект-объект", а вероятностную логику, контексты и динамические правила вывода. Так что, возможно, имеет смысл сразу смотреть чуть дальше Neo4j, чтобы не строить систему на архитектуре, которая для КСС уже считается пройденным этапом
Благодарю, много информации насыпали! Обязательно попробую ознакомиться, из всего перечисленного только с LangGraph немного экспериментировал.
На самом деле, то что я написал - это лишь верхушка айсберга.
Если позволите, совет на будущее: сейчас критически важно смотреть не в сторону "чистых" LLM, а в сторону нейросимволического подхода.
Работа с чистой нейросетью в сложных проектах скоро станет непозволительной роскошью и с большими затратами на проверку её галлюцинаций. Нейросимвольные системы, где нейронка отвечает за восприятие, а символьное ядро за логику и факты - это единственный путь к предсказуемому результату.
И еще один прагматичный момент, почему нейросимвольный подход сейчас выигрывает. Вы наверняка видите, что происходит с рынком: цены на видеокарты, HBM-память и даже на SSD/HDD стабильно ползут вверх уже который месяц. Содержать "чистую" LLM-инфраструктуру становится неприлично дорого.
В этом и кроется колоссальное преимущество КСС: им просто не нужны те терафлопсы и гигабайты видеопамяти, которые "сжирает" нейросеть при попытке выдать хоть сколько-нибудь вменяемую логику. В нейросимвольной системе львиную долю сложной работы берет на себя эффективное символьное ядро, которое отлично работает на стандартном "железе".
Наша компания имеет политику конфиденциальности. Нельзя так просто загрузить интеллектуальную собственность в ИИ чат (особенно публичный)
П.с. я даже у Qwen-max спросил могу ли я работать с ним с корпоративными данными. Он ответил однозначно - НЕТ
Так Qwen и не является ИИ. Спросите у него: "Ответь прямо: являешься ли ты когнитивной системой по Ньюэллу или просто сложным аппроксиматором?"
Это не имеет значения как он себя называет. Даже если просто положить код или прайслист на внешний носитель - нарушение политики и за такое увольняют
Когнитивно-символьные системы (КСС), разворачиваются только локально (On-premise). Ядро и модули обучаются на Ваших данных внутри Вашего контура, не отправляя ни байта "дяде".
То, что вы называете "ИИ" (публичные чаты) - это просто маркетинговые веб-сервисы. В нормальных системах знания инкапсулированы в модули внутри компании, и там Ваше "нельзя" превращается в мощный инструмент развития бизнеса без нарушения политик.
Если нужно соблюдать местное законодательство, то можно посмотреть в сторону Сбера или Яндекса. В целом их модели должны потащить такие задачи, тк здесь в основном идет работа над контекстом, рассуждений особо не требуется
В случае если и это не вариант, а использовать возможности LLM охота, надо смотреть на разворачивание модели локально. Если такой строгий комплайенс, то пусть тогда компания расщедрится на сервер , и установит например Qwen3-30B-A3B, который подобные задачи в теории должен потянуть.
И в добавление, не к вашему личному примеру, а в целом. Многие компании так за свой код переживают, будто они все Лаборатория Касперского. По собственному опыту, большинство кастомного ABAP код в SAP нельзя передавать в LLM не по соображением безопасности, а потому что есть большой риск, что нейросеть, обучившись на этом, начнет деградировать )

Сапёр в эпоху LLM: собираем персонального архивариуса для SPRO, ABAP-кода и Telegram-чата