Обновить
2
Сергей Чмиленко@antaresdk

UX/UI Designer

Отправить сообщение

Запилить к глобальной системе знаний семантический поиск - RAG-индекс я уже сделал. И даже потестировал. Как по мне, это прекрасно работает для слабой модели. То есть такая ЛЛМ настолько слаба, что любые подходящие детали под задачу, которые система сама сможет заранее предоставить по контексту, приведут к лучшему результату. И, по идее, RAG-индексация нужна не только для системы знаний. Я например прикручиваю ее и к инструментам. То есть ЛЛМ в этой системе может писать под себя легкие плагины со специальным описанием, которое будет близким по RAG-индексу к теме в которой они могут использоваться. RAG-индексация - это, я считаю, сильная помощь со стороны автоматической системы для LLM. Невозможно предсказать, что именно может оказаться нужным для каждого запроса. А такой результат поиска, даже сильно ограниченный по количеству (для экономии размера общего контекста), может сильно помочь LLM для принятия решения.

Граф ресурсов - для LLM это дублирующая модель цифрового мира, в котором существует пользователь. С помощью нее LLM понимает контекст, в котором находится пользователь в данный момент, может строить предсказания где окажется пользователь в следующий момент. И, исходя из предсказаний на статистических данных, сможет выкатывать пользователю возможные инструменты или решения для следующего шага.

Но на самом деле решение про использование графа ресурсов лежит в области той же, почему сейчас клепают антропоморфных роботов. Все интерфейсы в нашей жизни и в том числе на компьютере заточены под человека. И их настолько много и они настолько непредсказуемы и не автоматизируемы (слишком много и затратно ко всему прикручивать свои API, а иногда и вовсе невозможно), что проще сделать автоматизированный дубликат человека. В моем случае граф ресурсов - набор скринов (визуальная модель) с описаниями чем они являются и как в это состояние система попала и какие выходы из этого состояния есть. С помощью такого графа ресурсов LLM сможет выбраться из любого логического тупика в системе. Такой контекст должен собираться долго и медленно, с обработкой каждой ноды в неиспользуемое пользователем время. У меня это сделано так, что для построения этой модели LLM собирает скрины и действия приводящие к данным скринам, создает из этого временную необработанную базу. А когда пользователь перестает действовать на компьютере (или другом устройстве), начинает обрабатывать скрины, делает выводы по результатам распознавания и делает предположения для следующего построения пути от этой ноды.

Интересно. Вы - первый человек, который подтвердил мою гипотезу) Возможно, я пилю как раз то, что вы подразумеваете: https://koan-assistant.com/ В моем случае я запускаю локальную qwen3.5:9b, которая отвечает и за распознавание картинок и за ответы. Вся система строит граф ресурсов и хранит локально на компьютере. На основе графа ресурсов и каналов взаимодействия пользователя с внешним миром, находит точки интереса и в рамках точек интереса вся эта система уже может выкатывать короткие контексты и инструменты для их решения для слабой ЛЛМ. Также есть мобильное приложение и серверная часть для обмена сообщениями между основным ассистентом и мобилкой.

Спустя год проект не сдвинулся никуда. Я использую свою же библиотеку (плохо оформленную). Все равно считаю кому-то придется выйти на этот рынок и систематизировать.

Информация

В рейтинге
Не участвует
Откуда
Нижний Новгород, Нижегородская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Фулстек разработчик, Арт директор
Ведущий
SQL
C#
Дизайн-система
Web Interface Design
Дизайн игр
GUI дизайн
Арт-директинг
Vue.js
SCSS