Pull to refresh
-18
0,2
Rating
Send message

Рад приветствовать вас!

Скажите пожалуйста, а точно ли надо скачивать библиотеки cudart-llama и помещать в довесок к основным файлам запуска? Всегда работало без них. Сейчас попробовал их тоже закинуть - разницы абсолютно никакой и по логам что-то не видно, что он хоть как то с ними взаимодействует...

Пробовал с 5080 переезжать на 13 cuda и разницу в скорости генерации между cuda 12 и 13 не заметил - так и должно быть? Откатился обратно на 12 т.к. многие другие генераторы изображений и голоса пока ещё не работают с 13 версией.

Пользуясь случаем, так-же хочу внести свой вклад в копилку знаний llama.cpp:

То есть для комфортной работы запускаю через батник вот так:

E:\llama-b8913-bin-win-cuda-12.4-x64\llama-server.exe -c 131072 --fit-target 3072 --host 172.16.0.7 --port 11434 --models-max 1 --sleep-idle-seconds 600 --webui-mcp-proxy --models-dir E:\gguf

Здесь есть пару интересных параметров, не указанных в статье автора:

--sleep-idle-seconds 600 - таймаут бездействия выгружает модель из памяти если не работаем с моделью в кеш, а сервер переводит в режим сна. При обращении к модели, всё это очень быстро восстанавливается в работу.

--webui-mcp-proxy - обязательный параметр если подключаем свой mcp сервер, без него будут проблемы с cors.

Есть у меня и второй батник с параметром –reasoning off , его я запускаю когда подключаю локальные модели к VSCode Github Copilot:

E:\llama-b8913-bin-win-cuda-12.4-x64\llama-server.exe -c 131072 --fit-target 3072 --host 172.16.0.7 --port 11434 --reasoning off --models-max 1 --sleep-idle-seconds 600 --webui-mcp-proxy --models-dir E:\gguf

--reasoning off - на любой модели отключает размышление (даже на неотключаемом gpt-oss вырубает). Я так понимаю для Copilot при работе с локальной моделью, размышление только мешает и после недолгой работы, начинает сыпать ошибками. Особо не разбирался, возможно быстро заканчивается окно контекста, но как по мне с моделью без размышления Copilot гораздо лучше "кодит" и конечно же в разы быстрее. ))

Нууу... без карточки с описанием и обложкой к фильму, оповещение в телеге о загрузке торрента, прямо скажем не канон:

llama.cpp уже давно научился сам оптимально распределят слои по количеству vram и озу. Больше ничего не надо мудрить с аргументами, просто запускаете с указанием хоста порта и натравливаете на папку с моделями (если модель лежит в отдельной подпапке со своей мультимодалкой, то он их автоматически запускает вместе как мультимодальную модель). Он даже максимально продуктивный контекст, исходя из параметров системы расчитает автоматом. Курите доки, llama.cpp уже в космос улетел по функционалу в сравнении с аналогичнымы решениями (ещё бы, по 10 обновлений в день выходит).

Ollama режет скорость генерации же, по сравнению с llama.cpp примерно в 1.5 раза на одной и той же модели. Это прям непозволительное расточительство в условиях запуска локальной модели.

Межъягодичную складку )

В принципе да, llama.cpp умеет из api переключать модели, llama-swap лишний (я просто к нему привык). Больше скажу, llama.cpp можно натравить на папку с моделями и он автоматически их подставит на выбор через api.

Тоже перешёл на llama.cpp + llama-swap т.к. ollama уже давно скатился в какое-то полу коммерческое дно. Да и по скорости генераций llama.cpp обходит ollama на целую голову - а это, на секундочку ключевой фактор в подобной деятельности.

Мой совет новичкам, даже не думайте это трогать, существует целый вагон качественного, быстрого, адекватного по для работы с локальными моделями. Ollama юзают те, кто далеко от темы локальной нейро генерации.

Ознакомьтесь пожалуйста https://habr.com/ru/articles/961478/ и посмотрите по постам и комментариям данного автора, там прям максимально всё разжёвано. Небольшое уточнение - я писал не в 2раза, а примерно в х2 т.к. всё зависит от подбора параметров под конкретную модель.

Что-то вы про Ollama как то круто завернули, когда уже например llama.cpp давно на голову выше как по скорости генерации (примерно x2 раза), так и по функциональности и удобству ПО. Единственный козырь Ollama возможность юзать тяжёлые модели в облаке, но и они имеют лимиты на бесплатное использование.

Здравствуйте. Скажите пожалуйста, на таком:

Linux RT-BE92U-CC10 4.19.294 #1 SMP PREEMPT Tue Nov 25 10:59
:27 EST 2025 aarch64 ASUSWRT-Merlin

Ваш замечательный проект заведётся?

Лучше бы для NPU на своих процессорах серии AI уже что-нибудь рабочее придумали.

Да это для тестов, просто если 0.0.0.0 то почему то не видит из под виртуалки а с адресом хоста всё норм. Так то я экспериментирую с модельками из под llama-swap:

macros:
    latest-llama: E:\llama-b7688-bin-win-cuda-12.4-x64\llama-server --ctx-size 0 --fit-target 2048 --port ${PORT} --model

models:

#    z_image_turbo-Q8_0: 
#        name: 0 z_image_turbo-Q8_0
#        description: тест
#        checkEndpoint: E:\
#        cmd: E:\sd-master-c5602a6-bin-win-cuda12-x64\sd-server --diffusion-model E:\gguf\sd\z_image_turbo-Q8_0.gguf --vae E:\gguf\sd\ae_bf16.safetensors --llm E:\gguf\qwen_3_4b-Q8_0.gguf --listen-port ${PORT}
        
    # -----------------------------------------------------------------------------------

    aquif-3.5-Max-42B-A3B-MXFP4_MOE: 
        name: aquif-3.5-Max-42B-A3B-MXFP4_MOE
        description: ~30t\s работает в основном на CPU и немного GPU (контекст 54k)
        cmd: ${latest-llama} E:\gguf\aquif-3.5-Max-42B-A3B-MXFP4_MOE.gguf -ncmoe 55
        
    # -----------------------------------------------------------------------------------
        
    DeepSeek-MoE-16B-Chat-MXFP4_MOE:
        name: DeepSeek-MoE-16B-Chat-MXFP4_MOE
        description: ~250t\s работает на gpu
        cmd: ${latest-llama} F:\gguf-2\DeepSeek-MoE-16B-Chat-MXFP4_MOE.gguf
        
    # -----------------------------------------------------------------------------------
        
    gpt-oss-20b-mxfp4:
        name: gpt-oss-20b-mxfp4
        description: дефолтная ~210t\s размышляет
        cmd: ${latest-llama} F:\gguf-2\gpt-oss-20b-mxfp4.gguf -ncmoe 0
        
    Huihui-gpt-oss-20b-abliterated-v2-MXFP4_MOE:
        name: gpt-oss-20b-abliterated-v2
        description: без цензуры от Huihui-ai
        cmd: ${latest-llama} F:\gguf-2\Huihui-gpt-oss-20b-abliterated-v2-MXFP4_MOE.gguf -ncmoe 0
        
    gpt-oss-20b-Derestricted-MXFP4_MOE:
        name: gpt-oss-20b-Derestricted
        description: без цензуры от Felladrin
        cmd: ${latest-llama} F:\gguf-2\gpt-oss-20b-Derestricted-MXFP4_MOE.gguf -ncmoe 0
        
    # -----------------------------------------------------------------------------------
        
    gpt-oss-120b-mxfp4:
        name: gpt-oss-120b-mxfp4
        description: дефолтная ~30t\s
        cmd: ${latest-llama} E:\gguf\gpt-oss-120b-mxfp4\gpt-oss-120b-mxfp4-00001-of-00003.gguf -ncmoe 32
        
    gpt-oss-120b-abliterated:
        name: gpt-oss-120b-abliterated
        description: без цензуры от Huihui-ai
        cmd: ${latest-llama} E:\gguf\Huihui-gpt-oss-120b-abliterated-MXFP4_MOE\Huihui-gpt-oss-120b-abliterated-MXFP4_MOE-00001-of-00004.gguf -ncmoe 32
        
    # -----------------------------------------------------------------------------------
        
    NVIDIA-Nemotron-3-Nano-30B-A3B:
        name: NVIDIA-Nemotron-3-Nano-30B-A3B
        description: ~65t\s размышляет       
        cmd: ${latest-llama} E:\gguf\NVIDIA-Nemotron-3-Nano-30B-A3B-MXFP4_MOE.gguf -ncmoe 30
        
    # -----------------------------------------------------------------------------------
        
    gemma-3n-E4B-it-Q8_0:
        name: gemma-3n-E4B-it-Q8_0
        description: быстрая ~100t\s (32k)
        cmd: ${latest-llama} F:\gguf-2\gemma-3n-E4B-it-Q8_0.gguf
        
    gemma-3-270m-it-Q8_0:
        name: gemma-3-270m-it-Q8_0
        description: ~550t\s⚡супер лаконичная (контекст 32k)
        cmd: ${latest-llama} F:\gguf-2\gemma-3-270m-it-Q8_0.gguf
        
    gemma-3-4b-it-f16:
        name: gemma-3-4b-it-f16
        description: мультимодальня ~90t\s
        cmd: ${latest-llama} F:\gguf-2\gemma-3-4b-it-f16\gemma-3-4b-it-f16.gguf --mmproj E:\gguf\gemma-3-4b-it-f16\mmproj-model-f16.gguf
        
    gemma-3-12b-it-qat-Q4_0:
        name: gemma-3-12b-it-qat-Q4_0
        description: мультимодальня ~60t\s
        cmd: ${latest-llama} F:\gguf-2\gemma-3-12b-it-qat-Q4_0\gemma-3-12b-it-qat-Q4_0.gguf --mmproj E:\gguf\gemma-3-12b-it-qat-Q4_0\mmproj-model-f16-12B.gguf
        
    gemma-3-27b-it-qat-Q4_0:
        name: gemma-3-27b-it-qat-Q4_0
        description: мультимодальня ~13t\s
        cmd: ${latest-llama} F:\gguf-2\gemma-3-27b-it-qat-Q4_0\gemma-3-27b-it-qat-Q4_0.gguf --mmproj E:\gguf\gemma-3-27b-it-qat-Q4_0\mmproj-model-f16-27B.gguf

    # -----------------------------------------------------------------------------------  
    
    Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE:
        name: Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE
        description: мультимодальня ~...t\s
        cmd: ${latest-llama} E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE.gguf --mmproj E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE\mmproj-F16.gguf
        
    Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE:
        name: Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE
        description: мультимодальня ~80t\s (думающая)
        cmd: ${latest-llama} E:\gguf\Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE\Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE.gguf --mmproj E:\gguf\Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE\mmproj-F16.gguf
        
    # ----------------------------------------------------------------------------------- 

    HyperNova-60B-MXFP4_MOE:
        name: HyperNova-60B-MXFP4_MOE
        description:  ~43t\s (думающая) маленькое контекстное окно 4096
        cmd: ${latest-llama} F:\gguf-2\HyperNova-60B-MXFP4_MOE.gguf  

    # -----------------------------------------------------------------------------------        

    Qwen3-30B-A3B-Deepseek-Distill-Instruct-2507-MXFP4_MOE:
        cmd: ${latest-llama} E:\gguf\Qwen3-30B-A3B-Deepseek-Distill-Instruct-2507-MXFP4_MOE.gguf -ncmoe 25
        
    Qwen3-Coder-30B-A3B-Instruct-MXFP4_MOE:
        cmd: ${latest-llama} E:\gguf\Qwen3-Coder-30B-A3B-Instruct-1M-MXFP4_MOE.gguf -ncmoe 25

    MiroThinker-v1.0-30B-MXFP4_MOE:
        cmd: ${latest-llama} :\gguf\MiroThinker-v1.0-30B-MXFP4_MOE.gguf -ncmoe 30
        
    Trinity-Mini-MXFP4_MOE:
        cmd: ${latest-llama} F:\gguf-2\Trinity-Mini-MXFP4_MOE.gguf -ncmoe 8
        
    rnj-1-instruct-Q8_0:
        cmd: ${latest-llama} F:\gguf-2\rnj-1-instruct-Q8_0.gguf -ncmoe 0

        
        
        

Ну и OpenWebUI подключён к llama-swap и sdnext для генерации изображений.

Прошу прощения за беспокойство. Это я затупил. Как только вы написали про --mmproj понял куда копать.

Запускал так:

llama-server -m "E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE.gguf" --port 11434 --host 172.16.0.7 --jinja

А нужно вот так:

llama-server -m "E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE.gguf" --mmproj "E:\gguf\mmproj-F16.gguf" --port 11434 --host 172.16.0.7

Благодарю за наводку!

Здравствуйте! Подскажите пожалуйста. Почему у меня эта модель в упор не хочет видеть изображения? Всё уже перепробовал, итог всегда один:

Какие то странные результаты теста у вас по ссылке. Вот мои на RTX 5080 / 96 GB RAM / 9950x3D:

gpt-oss-120b (RTX 5080 / 96 GB RAM / 9950x3D)
gpt-oss-120b (RTX 5080 / 96 GB RAM / 9950x3D)
gpt-oss-20b (RTX 5080 / 96 GB RAM / 9950x3D)
gpt-oss-20b (RTX 5080 / 96 GB RAM / 9950x3D)

Это просто чудо! Благодаря вам удалось выжать ~30 t/s по сравнению с Ollama (15 t/s) двухкратный прорость скорости! Спасибо вам огромное!

Запускаю вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 32768 -fa auto -ncmoe 29 --jinja

(-ncmoe 29 подбирал опытным путём, смотрел через диспетчер задач при каждом запуске сколько кушает vram)

И да, вы точно указали, как только выходит за рамки vram скорость снижается до ~10 t/s

Вот думаю теперь скинуть свою оперативу и взять два комплекта по 96гб т.к. меня в принципе устраивает модель (gpt-oss-120b) по точности и адекватности ответа, но ещё ж и приложениям требуется память. Мне было комфортно и с 15 t/s (главное можно читать текст в процессе генерации, пока он не убежал за скролл) но теперь вдохновился скоростью работы и буду подключать к IDE. Хочу вот ещё одну хорошую moe модельку llama4:16x17b попробовать.

Можно ещё вопросик? Помимо 5080 16гб есть у меня и 6900XT 16гб, как думаете, если я подключу их обе в Debian (в винде 5080 начинает себя неадекватно вести если обе работают) в режиме по х8 линий на каждую, можно ли ожидать существенного профита от такого решения? Ну вроде vram получается суммируется в 32гб + распараллеливание задач аж на целых два достаточно производительных чипа. Стоит ли игра свеч?

Здравствуйте. Решил попробовать ваш метод запуска модели GPT-OSS-120b получилось так: через Ollama 15 t/s , через llama-server 26 t/s. Благодарю, это очень круто, можно таким образом "разогнать" модель! Позвольте задать вам пару вопросов:

Скажите пожалуйста, я могу на llama-server запустить уже скачанную для Ollama модель или так же придётся загружать с hf формат gguf модельки?

И вот ещё мне непонятно, я запускаю по вашему шаблону вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 65536 -fa auto -cmoe --jinja

работает хорошо и быстро (26 t/s) vram кушает всего 6гб, ram ~70гб!

Но как только начинаю играться с параметрами, шаг влево - шаг вправо забивает полностью vram (5080 16гб) и под завязку оперативу (96гб). И так к примеру пробовал --threads 12 --gpu-layers 20 --n-cpu-moe 8 и сяк -c 65536 -fa auto -ncmoe 12 --jinja ... в общем пробежался по вашим постам и комментариям, пробовал многое и хоть ты тресни! как только отхожу от вашего шаблона с предыдущего поста, тупо сжирает всю память и на этом всё заканчивается.

Может подскажете как мне задействовать, ну скажем 14гб vram для большей производительности? А то вот везде в гайдах к llama пишут экспериментируйте с параметрами под свою систему, но вот у меня что то не срастается заняться экспериментами.

К чему это всё? GPT-OSS-120b уже давным давно спокойно работает на Ollama.

Ребята, посоветуйте плиз достойную утилиту управления мониторами. Вроде сейчас модно ставить перед глазами кучу мониторов, но проблема управления всем этим хороводом почему то не обсуждается.

Подскажите плиз, может кто знает как оплатить Ollama cloud из РФ? Вот не сталкивался до сих с оплатой зарубежных сервисов. Даже не знаю с чего и начать, поиск выдаёт кучу контор, но какие из них нормально работают, не понятно.

1
23 ...

Information

Rating
3,478-th
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity