Вчера Ollama стала устанавливаться как версия 0.15.5
Теперь доступны новые модедели, например qwen3-coder-next.
Данная модель очень хорошо пишет код, но есть одна проблема. Для ollama есть только модели с квантизацией q4_K_M размер модели 52Гб., q8_0 размер 85Гб или платный запуск из облака. Сама модель обучена на 80 миллиардах параметров, большую часть которых составил код.
Да, в минимальной конфигурации, для локального запуска этой модели необходимо не меньше 80 Гб. видеопамяти если нужна большая скорость. Конечно можно запустить эту модель и на CPU, имея от 128 Гб. DDR5 RAM, работать будет, но очень медленно.
Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей. Но проблема в том что, когда я предлагаю таким людям доступ к своему серверу, на котором уже загружены эти модели и у которого хватает мощности для их инференса, они начинают ставить минусы к статьям и писать нелепые комментарии о том что ollama это полное гавно.
Если вы не хейтер и не супергуру в нейросетях, то буду рад дать доступ к моему ИИ серверу на котором вы сможете испытать 10 различных моделей.
Доступ к серверу бесплатный, но к сожалению не вечный. Когда я закончу настройку своего RAG, я выключу этот сервер. Хотя есть слабая возможность что я привезу из Китая еще один такой же.
Адрес сервера http://demonryb.ru:8080/
Доступ к моделям возможен только после того как я подтвежу вашу регистацию.
Сразу добавлю, если я одобрил вашу регистрацию НО вы попытаетесь перегрузить сервер тупыми запросами, я буду вынужден вас отключить.
Ну и краткая характеристика моего сервера:
Процессор Core I9 14900KF
RAM: DDR5 192 Gb.
GPU 2 x RTX4090D48G (96 Гб. VRAM GDDR6X), производительность по меркам huggingface 166 TFLOPS
Возможно это не самя удачная конфигурация, готов обсуждать её, но если вы не имеете даже такой конфигурации своего ПК, то может вам не стоит кричать и ставить мне минусы?
Вот так я вижу когда запускают инференс -

