All streams
Search
Write a publication
Pull to refresh

Comments 5

Qwen3-30B-A3B не пробовали? Она обновлялись недавно - пошло разделение на Thinking и Instruct. По моим впечатлениям - лучше, чем Qwen3-14B работает и значительно быстрее.

В 16GB влезет какой-нибудь UD-Q2_K_XL от unsloth (и место на контекст останется).

Пробовал, но для нее надо 24 гиговую карту - a5000 или что то помощнее. Для ответов по правилам мне 14B хватает, для скорости можно /no_think прописать. Тут еще память нужна для модели эмбедингов, у мен, она 1.1 гига отбирает, у которой с русским хорошо.

Интересно, а не прокатило ли бы такое решение: запускаем локально самую бюджетную по ресурсам нейронку, задача которой - определить, что запрос юзера уже был раньше(по смыслу, конечно, не посимвольно), а ответы того же гигачата сохраняем в условном редисе в виде "вопрос-ответ" и соответственно при матчинге берём из него вместо того, чтобы лезть вовне и жечь лишние токены?

Кэшировать ответы можно, но вопрос в том, что в кэш может улететь неверный ответ. В среднем же в районе 70% ответы точные, а галлюцинации у моделей похоже будут нас преследовать долго. Я пробовал на другом проекте кэшировать запросы-ответы и результат не очень понравился.

И я и так самую бюджетную использовал модель у Сбера и бюджетный сервер + и так приходится промежуточный VPS с проксей использовать (хотя его можно за 200-250 рублей взять и хватит под наши нужды) и еще одно звено добавлять в цепочку будет лишней точкой отказа.

Еще есть вариант попросить у Сбера бесплатный доступ в качестве шефской помощи инди-проекту, но думаю не дадут. Хотя я могу бы развернуть на их API и полноценный RAG с обновляемыми эмбедингами и сделать игрового чат-бота для реальной картонной настольной игры.

На ютубе выкладывали ролик , как ИИ играла в контру на локальной LLM, обученной по скриншотам игры. В качестве GPU использовался игровой графический ускоритель. Для таких вещей ollama не годится.

Sign up to leave a comment.

Articles