Обновить
-1
0.1

Пользователь

Отправить сообщение

Т.е. вместо использования стандартных решений связей между таблицами в самой субд выносить эти связи в программный код backend ? Подобные решения уже видел. Там "страх и ужас" в данных.

Опять ради хайпа публикуют разный "любительский бред". Сколько можно? Где администраторы пропускать это в публикацию ?

У меня стоит на мощном железе две 5060ti с 16гиг на каждой. Запускал разные модели на этом железе различными способами. Для серьезного вайбкодинка ни одна локальная модель не может и близко "тягаться" с мощными облачными типя Claude sonnet 4 и аналогичными. Все это , разве только, для построения специализированных rag систем.

Для кодинга это однозначно не годится. Даже не стоит начинать все это. Сейчас без проблем можно подключить qwen-coder 480b с их аи агентом по 2000 бесплатных запросов в сутки, что вполне достаточно для ежедневного использования. Ollama технология - это чисто для начального знакомства с моделями. Для "рабочего" локального их запуска нужно использовать совсем другой подход и на "хорошем" железе с мощным GPU и большом объёме vram. А так, все это для"поиграться"

Задайте claude.ai вопрос "Почему не стоит делать rag по принципу вопрос ответ". Ответ Вас удивит:"

Почему RAG в формате "вопрос-ответ" — плохая идея

Отличный вопрос! Многие начинающие делают датасет в формате FAQ и потом удивляются, почему система работает плохо. Вот почему это антипаттерн:.... "

Еще нужно создать граф связей между пересекающимися данными в чанках. И так, как описано в статье, создание dataset для rag в формате вопрос - ответ , Claude.ai делать не рекомендует.

В этом всем самое сложное подготовить правильные данные для обучения. Все остальное - весьма "стандартная" процедура. С точки зрения безопасности, отдать свои данные для обучения внешнему ресурсу и еще заплатить за это - такое себе решение.

Просто не разобрались, как на GPU правильно запускать модель ИИ. Ollama и llama.cpp без проблем разделяют работу ИИ между GPU и CPU, если модели не хватает ресурсов для GPU. Еще важны параметры запуска модели. Сами модели бывают разные по квантизации, соответственно разный объём памяти они занимают. Падение GPU часто связано с неудачным выбором длины модели и неправильной ее настройкой для запуска. Используемая модель в статье при запуске модель должна занимать в районе 10гиг памяти видеокарты, в противном случае при работе cuda ядер и обработке контента память запросто может перешагнуть 16гиг памяти VRAM и привести к падению задачи.

Здесь основная проблема, правильно сформировать dataset для rag. Здесь нужно связать описание всех классов и методов в них, указать исполняемый код в каждом классе, сделать обычное и семантическое описание работающего кода в них. Построить графы зависимости между классами и методами. Затем взять весь остальной код , в котором это все используется и связать графами с предыдущими структурами, сделать семантический анализ работающего кода. Если есть документация, тоже привязать ко всему этому. Тогда по итогу получится полноценный rag по всем классам, методам и связанному с этим коду. Такие структуры по силам сделать современным ии типа claude.

Подход абсолютно неверный. Нужно было запускать RAG и подключать русскоговорящую модель. RAG работает на уровне openapi протокола и ему неважно, через что запущена модель.

По акции 2500 запросов к Claude за 1$ - это раз в 100 дешевле покупки токенов .

Лет через 20 нынешние с ностальгией будут вспоминать современные i9 с видео 5090 32гиг VRAM и стоимостью под 4000$

Прием у офтальмолога сейчас занимает 6-8 минут, о каких полчаса тут написано. У них так план составлен по приему пациентов.

К базе ИИ обычно подключают через MCP сервер. Локальное ИИ может работать как на CPU, так и на gpu. На CPU работают самые "тупые" модели, но если для них написать dataset с определенными правилами типа слово "найди" , то по такому запросу эта ии будет перенаправлять запрос на MCP сервер. Ответ тоже будет стандартный. Для больших ИИ моделей нужно огромное количество VRAM, опыт показал, что на 32гиг VRAM вмещается модель и очень маленький буфер для контента, нормального диалога с ии не получится, или надо подключать ram, что снижает скорость ответа ии в разы. Локально, по сути , можно установить только узкоспециализированно обученные модели.

Для общения с моделью голос нужно перевести в текст. Для этого существуют локальные программные сервисы для русского языка. Для озвучивания ответа модели работает другой сервис. Здесь все намного проще.

На ютубе выкладывали ролик , как ИИ играла в контру на локальной LLM, обученной по скриншотам игры. В качестве GPU использовался игровой графический ускоритель. Для таких вещей ollama не годится.

Заплатить за использование ресурса Claude n количество реальных денег, что бы получить сводную таблицу - такое себе решение. Был бы пример, как это реализовать на локальной ИИ, тогда идея имела бы место. Я себе похожее делал на локальной ИИ без GPU, когда голосом давал найти информацию в базе, локальная ИИ через мср обращалась в субд и возвращала на экран результат и комментировала его голосом, вот такое решение более интересно.

Очередное разводилово на деньги для стороннего сервиса Ничем не лучше обычных бесплатных решений.

Модели могут быть по разному настроены. Весит, например, 20гиг, а разворачивается на все 64 гиг. Размер контекста сильно тоже влияет на размещение модели в памяти.

Главная проблема, что за все внешние llm нужно платить и не мало. Хотелось бы увидеть работу всей структуры на локальных ресурсах.

Есть warp.dev цена меньше кратно в разы. Сейчас за 1$ 2500 запросов.

Информация

В рейтинге
3 994-й
Зарегистрирован
Активность