akdengi 21 сен в 13:36

Хочу ИИ помощника. Как я к сайту настольных игр GigaChat и Ollama+OpenWebUI прикручивал

Средний

8 мин

2.6K

Искусственный интеллектМашинное обучение * Python * Open source * Облачные сервисы *

Кейс

Комментарии 5

SabMakc 21 сен в 21:35

Qwen3-30B-A3B не пробовали? Она обновлялись недавно - пошло разделение на Thinking и Instruct. По моим впечатлениям - лучше, чем Qwen3-14B работает и значительно быстрее.

В 16GB влезет какой-нибудь UD-Q2_K_XL от unsloth (и место на контекст останется).

akdengi 22 сен в 04:43

Пробовал, но для нее надо 24 гиговую карту - a5000 или что то помощнее. Для ответов по правилам мне 14B хватает, для скорости можно /no_think прописать. Тут еще память нужна для модели эмбедингов, у мен, она 1.1 гига отбирает, у которой с русским хорошо.

SkiffCMC 23 сен в 07:37

Интересно, а не прокатило ли бы такое решение: запускаем локально самую бюджетную по ресурсам нейронку, задача которой - определить, что запрос юзера уже был раньше(по смыслу, конечно, не посимвольно), а ответы того же гигачата сохраняем в условном редисе в виде "вопрос-ответ" и соответственно при матчинге берём из него вместо того, чтобы лезть вовне и жечь лишние токены?

akdengi 23 сен в 09:19

Кэшировать ответы можно, но вопрос в том, что в кэш может улететь неверный ответ. В среднем же в районе 70% ответы точные, а галлюцинации у моделей похоже будут нас преследовать долго. Я пробовал на другом проекте кэшировать запросы-ответы и результат не очень понравился.

И я и так самую бюджетную использовал модель у Сбера и бюджетный сервер + и так приходится промежуточный VPS с проксей использовать (хотя его можно за 200-250 рублей взять и хватит под наши нужды) и еще одно звено добавлять в цепочку будет лишней точкой отказа.

Еще есть вариант попросить у Сбера бесплатный доступ в качестве шефской помощи инди-проекту, но думаю не дадут. Хотя я могу бы развернуть на их API и полноценный RAG с обновляемыми эмбедингами и сделать игрового чат-бота для реальной картонной настольной игры.

aladkoi 24 сен в 22:29

На ютубе выкладывали ролик , как ИИ играла в контру на локальной LLM, обученной по скриншотам игры. В качестве GPU использовался игровой графический ускоритель. Для таких вещей ollama не годится.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий