babikov12 часов назад

Как я добавил файловый доступ в локального AI-агента и что из этого вышло

Простой

6 мин

7.6K

Искусственный интеллект

Кейс

Комментарии 10

x89377 10 часов назад

Спасибо за статью,
есть возможность в настройках присоединиться к llama на другом компьютере через http (c моделью Gemini например) ?

babikov 9 часов назад

В следующем обновлении это уже запланировано.

Noname010 9 часов назад

не читал прошлую статью, а код в открытым доступе? аи агент работает без выхода в интернет?

Zailox 9 часов назад

Просмотрел кратко. Вроде не в открытом доступе код. Без выхода - да, модель локальная, доступ в интернет – опция.

babikov 9 часов назад

Код закрыт не из-за идеологии. Из-за ресурсов.

Поддерживать открытый репозиторий — это работа. Это не «выложил и забыл». Это issues которые надо разбирать, pull request'ы которые надо ревьюить, документация которую надо писать, публичная архитектура которую не стыдно показывать.

Дока это инди-проект. Один разработчик. Выходные. У меня нет команды которая будет отвечать на вопросы в issues и объяснять почему я выбрал именно такую структуру промпта.

Когда я открою код — я хочу сделать это правильно. Не «вот каша из 800-строчных файлов, разбирайтесь сами», а нормальная документация, нормальная архитектура, нормальный onboarding для контрибьюторов. Пока у меня нет на это времени — я не буду делать вид что есть.

Zailox 9 часов назад

Тоже делал подобный проект, но cli-only.

Хотел спросить, как:

Реализовали "прогон" файлов? (Да и "переключение роли"). Я пытался дать модели системник "ты можешь использовать тег \<search\>, после чего тебе от имени пользователя вернётся содержимое сайта/поиска" (и то же самое с "agent-to-agent". Но получилось плохо.
Как работает tools-calling? Просто перехват в начале сообщения тега, потом внедрение как то в контекст "ответа" от тула, и продолжение ответа?
Будет ли на Linux? На андроид? (Как pocketpal)

babikov 9 часов назад

1. Теги галлюцинирует модель, использую вместо них THINK→PLAN→ACT планирование и структурированный JSON для tool calls, на граничных кейсах structured errors с подсказками, переключение ролей не делаю.

2. Qwen не имеет native function calling, парсим JSON который пишет модель, выполняем инструмент, возвращаем результат, по 6–12 итераций на задачу, медленнее чем native calling но работает, сложность не в самих calls а в обработке кейсов когда модель галлюцинирует.

3. Linux технически возможен но GPU поддержка вариативна и один разработчик, 2-3% рынка, не стоит — Android совсем нет, 262K контекст это 500MB+ на мобиле и батарея, может быть лёгкая версия с маленькой моделью но это другой продукт.

Zailox 8 часов назад

Ну, с учётом того, на каком уровне нынешние флагманы (24 оперативы, так ещё и NPU) реализовать возможно (но согласен, морочиться с sdk от qualcomm такое себе удовольствие)

А на Линукс как по мне с драйверами всё даже лучше. Мне было легче прописать "apt install cuda-tools", чем чистить десятки гигов и ставить куду на диск D:.

alex_bobylkin 3 часа назад

Скачалась модель и всё зависло на проверке совместимости. Windows 11, Intel U9-285H, A140T, NPU, ОЗУ 32Gb. Не судьба?

babikov 2 часа назад

Да, похоже по железу несовместимость вылезла какая-то

Зарегистрируйтесь на Хабре, чтобы оставить комментарий