Comments 10
Так в статье пишется про БЗ только для LLM, а не для всех "архитектур ИИ".БЗ для когнитивно-символьных систем полностью и абсолютно отличаются от БЗ для LLM. Они попросту несовместимы, зато частично совместимы между собой при помощи конверторов - всё завязано на LTM, которой нет у LLM
Вы правы - в статье я как раз сознательно ограничился практическим кейсом для LLM.
Когнитивно-символьные БЗ насколько я знаю действительно живут по совершенно другим правилам.
Но в моей задаче стояла простая цель - навести порядок в разрозненных корпоративных документах, чтобы RAG/LLM корректно работали в операционных процессах. Это другой класс инструментов, и я не ставил целью делать универсальную БЗ, совместимую со всеми архитектурами ИИ.
Поэтому да — подход из статьи скорее инженерный и прагматичный, а не онтологический.
В любом случае благодарю за важное замечание..
Но заголовок статьи вводит читателей в заблуждение - автор рассказывает обо всех "ИИ-инструментах". Значит надо вместо обобщенного термина "ИИ" использовать тот термин, который указывает на ту технология, про которую в статье идёт речь - LLM. Использование правильных терминов в материале указывает на то, что автор действительно в теме и к нему есть определённое доверие.
MCP сервера решают описанную проблему более обобщенно и эффективно. Создавая другие проблемы по ходу дела.
Соглашусь. MCP гораздо более общий подход. Он отлично решает задачу получения актуальных данных по запросу, но добавляет свой слой инженерной сложности: нужно описывать набор возможностей, поддерживать протокол и следить за консистентностью инструментов.
В статье я решал более прикладную задачу: привести корпоративные документы в порядок, чтобы RAG стабильно работал в ежедневных операционных сценариях. MCP хорошо ложится поверх такой структуры, но сам по себе хаос в документах не устраняет.
MCP пытается адресовать (и иногда успешно) проблему забивание окна контекста мусором - вычитываем только то, что вроде как относится к запросу. В случае с файлами надо либо вручную вести индекс(и правильно скармливать модели), либо забить. Ручной индекс - это по сути переизобретение MCP, забивание на проблеме помогает, пока "все что надо" гарантированно и с запасом влазит в окно контекста.
Качество работы RAG-систем определяется не только моделью и векторной базой, но прежде всего — подготовкой данных.
Когда я опубликовал статью в которой написал что "наивный" RAG по чанкам не работает на реальных документах на примере собственного опыта (несколько гигов документов разной направленности)
мне то же дали совет из серии "мышки - станьте слонами".
Аналогичный совет "переработай всю документацию в более подходящий для LLM вид".
Замечательный советы.. гигабайты pdf с картинками/таблицами, зачастую плохо структурированные (люди разные писали). Несколько человеко лет на переписывание всего этого с неопределенным результатом.
Так не работает.
Как в итоге реализовали граф знаний (связи между статьями базы знаний)?
Для создания полноценной и достоверной базы знаний при решении конкретных задач в предметной области прежде всего необходима тщательная экспертная структуризация всех ее понятий и данных: тех которые являются исходными (фактами) и данных по которым необходимо получать какую то информацию (выводы). Причем выводы могут зависеть не только от фактов, но и от других выводов, которые являются промежуточными. То есть это не что иное многоуровневая онтологическая модель предметной области. Все факты и выводы имеют свои значения которые представляются в текстовом и числовом форматах. При таком подходе для конкретных значений фактов машина найдет правильные значения выводов и покажет всю свою цепочку рассуждений: почему получился именно такой результат(ответ), а не другой. Все это в многолетней истории ИТ уже проходилось и успешно работало, а такие инструменты называются экспертными (expert systems) или интеллектуальными системами поддержки принятия решений. Смогут ли предлагаемые технологии AI построенные на базе ИНС самостоятельно разбираться в мега-хаосе данных предметной области, проводить их систематизацию и настраиваться на полезную и точную работу, то это ещё большой вопрос. Фактически идёт процесс банальной монетизации неплохого, полезного и хорошо про-рекламированного программного продукта, но пока ещё с непредсказуемыми перспективами.
Создание корпоративной Базы Знаний для внедрения LLM-инструментов