All streams
Search
Write a publication
Pull to refresh
0
0
Send message

Просто не разобрались, как на GPU правильно запускать модель ИИ. Ollama и llama.cpp без проблем разделяют работу ИИ между GPU и CPU, если модели не хватает ресурсов для GPU. Еще важны параметры запуска модели. Сами модели бывают разные по квантизации, соответственно разный объём памяти они занимают. Падение GPU часто связано с неудачным выбором длины модели и неправильной ее настройкой для запуска. Используемая модель в статье при запуске модель должна занимать в районе 10гиг памяти видеокарты, в противном случае при работе cuda ядер и обработке контента память запросто может перешагнуть 16гиг памяти VRAM и привести к падению задачи.

Здесь основная проблема, правильно сформировать dataset для rag. Здесь нужно связать описание всех классов и методов в них, указать исполняемый код в каждом классе, сделать обычное и семантическое описание работающего кода в них. Построить графы зависимости между классами и методами. Затем взять весь остальной код , в котором это все используется и связать графами с предыдущими структурами, сделать семантический анализ работающего кода. Если есть документация, тоже привязать ко всему этому. Тогда по итогу получится полноценный rag по всем классам, методам и связанному с этим коду. Такие структуры по силам сделать современным ии типа claude.

Подход абсолютно неверный. Нужно было запускать RAG и подключать русскоговорящую модель. RAG работает на уровне openapi протокола и ему неважно, через что запущена модель.

По акции 2500 запросов к Claude за 1$ - это раз в 100 дешевле покупки токенов .

Лет через 20 нынешние с ностальгией будут вспоминать современные i9 с видео 5090 32гиг VRAM и стоимостью под 4000$

Прием у офтальмолога сейчас занимает 6-8 минут, о каких полчаса тут написано. У них так план составлен по приему пациентов.

К базе ИИ обычно подключают через MCP сервер. Локальное ИИ может работать как на CPU, так и на gpu. На CPU работают самые "тупые" модели, но если для них написать dataset с определенными правилами типа слово "найди" , то по такому запросу эта ии будет перенаправлять запрос на MCP сервер. Ответ тоже будет стандартный. Для больших ИИ моделей нужно огромное количество VRAM, опыт показал, что на 32гиг VRAM вмещается модель и очень маленький буфер для контента, нормального диалога с ии не получится, или надо подключать ram, что снижает скорость ответа ии в разы. Локально, по сути , можно установить только узкоспециализированно обученные модели.

Для общения с моделью голос нужно перевести в текст. Для этого существуют локальные программные сервисы для русского языка. Для озвучивания ответа модели работает другой сервис. Здесь все намного проще.

На ютубе выкладывали ролик , как ИИ играла в контру на локальной LLM, обученной по скриншотам игры. В качестве GPU использовался игровой графический ускоритель. Для таких вещей ollama не годится.

Заплатить за использование ресурса Claude n количество реальных денег, что бы получить сводную таблицу - такое себе решение. Был бы пример, как это реализовать на локальной ИИ, тогда идея имела бы место. Я себе похожее делал на локальной ИИ без GPU, когда голосом давал найти информацию в базе, локальная ИИ через мср обращалась в субд и возвращала на экран результат и комментировала его голосом, вот такое решение более интересно.

Очередное разводилово на деньги для стороннего сервиса Ничем не лучше обычных бесплатных решений.

Модели могут быть по разному настроены. Весит, например, 20гиг, а разворачивается на все 64 гиг. Размер контекста сильно тоже влияет на размещение модели в памяти.

Главная проблема, что за все внешние llm нужно платить и не мало. Хотелось бы увидеть работу всей структуры на локальных ресурсах.

Есть warp.dev цена меньше кратно в разы. Сейчас за 1$ 2500 запросов.

Еще AI можно подключить к MCP серверу через который он получает структурированные данные по запросам. Тип запроса определяется AI после его обучения. Далее AI что то должен с эти данными сделать . Или сразу отдать пользователю, или проанализировать и результат отдать пользователю.

Не стоит , по деньгам очень дорого. Проще платить за количество запросов. 2500запросов стоит на акции 1$

Ерунда сплошная написана в статье. Заголовок статьи о vps серверах для ИИ. А результат свелся к покупке обычного vps сервера с установкой разнообразных инструментов для создания AI агента. Только нигде не сказано, что за vps сервер нужно платить каждый месяц и за различные модули для АI агента тоже, и больше в разы, чем за саму аренду vps сервера. А про самостоятельную сборку такого сервера - вообще "дрова" какие то. Причем здесь vps и самосбор - какая связь? Просто набор слов.

Ставьте самопальные датчики присутствия и все будет работать железно. У меня все работает на home assistent установленный на ТВ приставку. Подключен zegbee свисток. Работает все это стабильно с любыми протоколами от любых производителей.

У меня самопальный датчик присутствия стоит в туалете работающий через esphome. Работает абсолютно стабильно, еще и вентилятор включает через несколько минут, все выключает при пустом помещении. Вообще никаких проблем . он еще и стоит внутри за перегородкой деревянной.

Датчик присутствия работает на объект. Как только объект не сканируется, датчик выключает свет. Такой самодостаточный датчикис управлением на реле и блютуз стоит пару долларов на али

Подходит тот момент, когда можно будет не уметь кодить. Личный ai агент все сам накодит, протестирует, создаст среду разработчика. Ему только нужно грамотро описать задачу, которую он будет выполнять

Information

Rating
4,440-th
Registered
Activity