Comments 5
Qwen3-30B-A3B не пробовали? Она обновлялись недавно - пошло разделение на Thinking и Instruct. По моим впечатлениям - лучше, чем Qwen3-14B работает и значительно быстрее.
В 16GB влезет какой-нибудь UD-Q2_K_XL от unsloth (и место на контекст останется).
Интересно, а не прокатило ли бы такое решение: запускаем локально самую бюджетную по ресурсам нейронку, задача которой - определить, что запрос юзера уже был раньше(по смыслу, конечно, не посимвольно), а ответы того же гигачата сохраняем в условном редисе в виде "вопрос-ответ" и соответственно при матчинге берём из него вместо того, чтобы лезть вовне и жечь лишние токены?
Кэшировать ответы можно, но вопрос в том, что в кэш может улететь неверный ответ. В среднем же в районе 70% ответы точные, а галлюцинации у моделей похоже будут нас преследовать долго. Я пробовал на другом проекте кэшировать запросы-ответы и результат не очень понравился.
И я и так самую бюджетную использовал модель у Сбера и бюджетный сервер + и так приходится промежуточный VPS с проксей использовать (хотя его можно за 200-250 рублей взять и хватит под наши нужды) и еще одно звено добавлять в цепочку будет лишней точкой отказа.
Еще есть вариант попросить у Сбера бесплатный доступ в качестве шефской помощи инди-проекту, но думаю не дадут. Хотя я могу бы развернуть на их API и полноценный RAG с обновляемыми эмбедингами и сделать игрового чат-бота для реальной картонной настольной игры.
На ютубе выкладывали ролик , как ИИ играла в контру на локальной LLM, обученной по скриншотам игры. В качестве GPU использовался игровой графический ускоритель. Для таких вещей ollama не годится.
Хочу ИИ помощника. Как я к сайту настольных игр GigaChat и Ollama+OpenWebUI прикручивал