Комментарии 10
Спасибо за статью,
есть возможность в настройках присоединиться к llama на другом компьютере через http (c моделью Gemini например) ?
не читал прошлую статью, а код в открытым доступе? аи агент работает без выхода в интернет?
Код закрыт не из-за идеологии. Из-за ресурсов.
Поддерживать открытый репозиторий — это работа. Это не «выложил и забыл». Это issues которые надо разбирать, pull request'ы которые надо ревьюить, документация которую надо писать, публичная архитектура которую не стыдно показывать.
Дока это инди-проект. Один разработчик. Выходные. У меня нет команды которая будет отвечать на вопросы в issues и объяснять почему я выбрал именно такую структуру промпта.
Когда я открою код — я хочу сделать это правильно. Не «вот каша из 800-строчных файлов, разбирайтесь сами», а нормальная документация, нормальная архитектура, нормальный onboarding для контрибьюторов. Пока у меня нет на это времени — я не буду делать вид что есть.
Тоже делал подобный проект, но cli-only.
Хотел спросить, как:
Реализовали "прогон" файлов? (Да и "переключение роли"). Я пытался дать модели системник "ты можешь использовать тег \<search\>, после чего тебе от имени пользователя вернётся содержимое сайта/поиска" (и то же самое с "agent-to-agent". Но получилось плохо.
Как работает tools-calling? Просто перехват в начале сообщения тега, потом внедрение как то в контекст "ответа" от тула, и продолжение ответа?
Будет ли на Linux? На андроид? (Как pocketpal)
1. Теги галлюцинирует модель, использую вместо них THINK→PLAN→ACT планирование и структурированный JSON для tool calls, на граничных кейсах structured errors с подсказками, переключение ролей не делаю.
2. Qwen не имеет native function calling, парсим JSON который пишет модель, выполняем инструмент, возвращаем результат, по 6–12 итераций на задачу, медленнее чем native calling но работает, сложность не в самих calls а в обработке кейсов когда модель галлюцинирует.
3. Linux технически возможен но GPU поддержка вариативна и один разработчик, 2-3% рынка, не стоит — Android совсем нет, 262K контекст это 500MB+ на мобиле и батарея, может быть лёгкая версия с маленькой моделью но это другой продукт.
Ну, с учётом того, на каком уровне нынешние флагманы (24 оперативы, так ещё и NPU) реализовать возможно (но согласен, морочиться с sdk от qualcomm такое себе удовольствие)
А на Линукс как по мне с драйверами всё даже лучше. Мне было легче прописать "apt install cuda-tools", чем чистить десятки гигов и ставить куду на диск D:.
Скачалась модель и всё зависло на проверке совместимости. Windows 11, Intel U9-285H, A140T, NPU, ОЗУ 32Gb. Не судьба?

Как я добавил файловый доступ в локального AI-агента и что из этого вышло