Comments / Profile of Incognito4pda / Habr

User

0,2

Rating

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Рад приветствовать вас!

Скажите пожалуйста, а точно ли надо скачивать библиотеки cudart-llama и помещать в довесок к основным файлам запуска? Всегда работало без них. Сейчас попробовал их тоже закинуть - разницы абсолютно никакой и по логам что-то не видно, что он хоть как то с ними взаимодействует...

Пробовал с 5080 переезжать на 13 cuda и разницу в скорости генерации между cuda 12 и 13 не заметил - так и должно быть? Откатился обратно на 12 т.к. многие другие генераторы изображений и голоса пока ещё не работают с 13 версией.

Пользуясь случаем, так-же хочу внести свой вклад в копилку знаний llama.cpp:

То есть для комфортной работы запускаю через батник вот так:

E:\llama-b8913-bin-win-cuda-12.4-x64\llama-server.exe -c 131072 --fit-target 3072 --host 172.16.0.7 --port 11434 --models-max 1 --sleep-idle-seconds 600 --webui-mcp-proxy --models-dir E:\gguf

Здесь есть пару интересных параметров, не указанных в статье автора:

--sleep-idle-seconds 600 - таймаут бездействия выгружает модель из памяти если не работаем с моделью в кеш, а сервер переводит в режим сна. При обращении к модели, всё это очень быстро восстанавливается в работу.

--webui-mcp-proxy - обязательный параметр если подключаем свой mcp сервер, без него будут проблемы с cors.

Есть у меня и второй батник с параметром –reasoning off , его я запускаю когда подключаю локальные модели к VSCode Github Copilot:

E:\llama-b8913-bin-win-cuda-12.4-x64\llama-server.exe -c 131072 --fit-target 3072 --host 172.16.0.7 --port 11434 --reasoning off --models-max 1 --sleep-idle-seconds 600 --webui-mcp-proxy --models-dir E:\gguf

--reasoning off - на любой модели отключает размышление (даже на неотключаемом gpt-oss вырубает). Я так понимаю для Copilot при работе с локальной моделью, размышление только мешает и после недолгой работы, начинает сыпать ошибками. Особо не разбирался, возможно быстро заканчивается окно контекста, но как по мне с моделью без размышления Copilot гораздо лучше "кодит" и конечно же в разы быстрее. ))

Домашний Netflix за вечер: Transmission + Jellyfin + Telegram-бот на Docker с поддержкой NAS

Incognito4pda Apr 19 at 23:06

Нууу... без карточки с описанием и обложкой к фильму, оповещение в телеге о загрузке торрента, прямо скажем не канон:

Как я тестировал локально новый Qwen 3.6 и Gemma 4

Incognito4pda Apr 18 at 22:15

llama.cpp уже давно научился сам оптимально распределят слои по количеству vram и озу. Больше ничего не надо мудрить с аргументами, просто запускаете с указанием хоста порта и натравливаете на папку с моделями (если модель лежит в отдельной подпапке со своей мультимодалкой, то он их автоматически запускает вместе как мультимодальную модель). Он даже максимально продуктивный контекст, исходя из параметров системы расчитает автоматом. Курите доки, llama.cpp уже в космос улетел по функционалу в сравнении с аналогичнымы решениями (ещё бы, по 10 обновлений в день выходит).

Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot

Incognito4pda Apr 11 at 00:09

Ollama режет скорость генерации же, по сравнению с llama.cpp примерно в 1.5 раза на одной и той же модели. Это прям непозволительное расточительство в условиях запуска локальной модели.

Происходит масштабный сбой в работе Рунета

Incognito4pda Apr 6 at 19:29

Межъягодичную складку )

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

Incognito4pda Mar 31 at 09:09

В принципе да, llama.cpp умеет из api переключать модели, llama-swap лишний (я просто к нему привык). Больше скажу, llama.cpp можно натравить на папку с моделями и он автоматически их подставит на выбор через api.

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

Incognito4pda Mar 19 at 20:37

Тоже перешёл на llama.cpp + llama-swap т.к. ollama уже давно скатился в какое-то полу коммерческое дно. Да и по скорости генераций llama.cpp обходит ollama на целую голову - а это, на секундочку ключевой фактор в подобной деятельности.

Мой совет новичкам, даже не думайте это трогать, существует целый вагон качественного, быстрого, адекватного по для работы с локальными моделями. Ollama юзают те, кто далеко от темы локальной нейро генерации.

Пора переезжать на локальные LLM. Или нет?

Incognito4pda Mar 14 at 06:34

Ознакомьтесь пожалуйста https://habr.com/ru/articles/961478/ и посмотрите по постам и комментариям данного автора, там прям максимально всё разжёвано. Небольшое уточнение - я писал не в 2раза, а примерно в х2 т.к. всё зависит от подбора параметров под конкретную модель.

Пора переезжать на локальные LLM. Или нет?

Incognito4pda Mar 10 at 20:43

Что-то вы про Ollama как то круто завернули, когда уже например llama.cpp давно на голову выше как по скорости генерации (примерно x2 раза), так и по функциональности и удобству ПО. Единственный козырь Ollama возможность юзать тяжёлые модели в облаке, но и они имеют лимиты на бесплатное использование.

B4 — обход DPI с веб-интерфейсом

Incognito4pda Feb 24 at 23:30

Здравствуйте. Скажите пожалуйста, на таком:

Linux RT-BE92U-CC10 4.19.294 #1 SMP PREEMPT Tue Nov 25 10:59 :27 EST 2025 aarch64 ASUSWRT-Merlin

Ваш замечательный проект заведётся?

AMD hipThreads: теперь C++-потоки можно запускать прямо на видеокарте, ускоряя код до 6×

Incognito4pda Feb 21 at 21:54

Лучше бы для NPU на своих процессорах серии AI уже что-нибудь рабочее придумали.

Запускаем Qwen3-VL-30B на 48GB VRAM

Incognito4pda Jan 9 at 21:21

Да это для тестов, просто если 0.0.0.0 то почему то не видит из под виртуалки а с адресом хоста всё норм. Так то я экспериментирую с модельками из под llama-swap:

macros:
    latest-llama: E:\llama-b7688-bin-win-cuda-12.4-x64\llama-server --ctx-size 0 --fit-target 2048 --port ${PORT} --model

models:

#    z_image_turbo-Q8_0: 
#        name: 0 z_image_turbo-Q8_0
#        description: тест
#        checkEndpoint: E:\
#        cmd: E:\sd-master-c5602a6-bin-win-cuda12-x64\sd-server --diffusion-model E:\gguf\sd\z_image_turbo-Q8_0.gguf --vae E:\gguf\sd\ae_bf16.safetensors --llm E:\gguf\qwen_3_4b-Q8_0.gguf --listen-port ${PORT}
        
    # -----------------------------------------------------------------------------------

    aquif-3.5-Max-42B-A3B-MXFP4_MOE: 
        name: aquif-3.5-Max-42B-A3B-MXFP4_MOE
        description: ~30t\s работает в основном на CPU и немного GPU (контекст 54k)
        cmd: ${latest-llama} E:\gguf\aquif-3.5-Max-42B-A3B-MXFP4_MOE.gguf -ncmoe 55
        
    # -----------------------------------------------------------------------------------
        
    DeepSeek-MoE-16B-Chat-MXFP4_MOE:
        name: DeepSeek-MoE-16B-Chat-MXFP4_MOE
        description: ~250t\s работает на gpu
        cmd: ${latest-llama} F:\gguf-2\DeepSeek-MoE-16B-Chat-MXFP4_MOE.gguf
        
    # -----------------------------------------------------------------------------------
        
    gpt-oss-20b-mxfp4:
        name: gpt-oss-20b-mxfp4
        description: дефолтная ~210t\s размышляет
        cmd: ${latest-llama} F:\gguf-2\gpt-oss-20b-mxfp4.gguf -ncmoe 0
        
    Huihui-gpt-oss-20b-abliterated-v2-MXFP4_MOE:
        name: gpt-oss-20b-abliterated-v2
        description: без цензуры от Huihui-ai
        cmd: ${latest-llama} F:\gguf-2\Huihui-gpt-oss-20b-abliterated-v2-MXFP4_MOE.gguf -ncmoe 0
        
    gpt-oss-20b-Derestricted-MXFP4_MOE:
        name: gpt-oss-20b-Derestricted
        description: без цензуры от Felladrin
        cmd: ${latest-llama} F:\gguf-2\gpt-oss-20b-Derestricted-MXFP4_MOE.gguf -ncmoe 0
        
    # -----------------------------------------------------------------------------------
        
    gpt-oss-120b-mxfp4:
        name: gpt-oss-120b-mxfp4
        description: дефолтная ~30t\s
        cmd: ${latest-llama} E:\gguf\gpt-oss-120b-mxfp4\gpt-oss-120b-mxfp4-00001-of-00003.gguf -ncmoe 32
        
    gpt-oss-120b-abliterated:
        name: gpt-oss-120b-abliterated
        description: без цензуры от Huihui-ai
        cmd: ${latest-llama} E:\gguf\Huihui-gpt-oss-120b-abliterated-MXFP4_MOE\Huihui-gpt-oss-120b-abliterated-MXFP4_MOE-00001-of-00004.gguf -ncmoe 32
        
    # -----------------------------------------------------------------------------------
        
    NVIDIA-Nemotron-3-Nano-30B-A3B:
        name: NVIDIA-Nemotron-3-Nano-30B-A3B
        description: ~65t\s размышляет       
        cmd: ${latest-llama} E:\gguf\NVIDIA-Nemotron-3-Nano-30B-A3B-MXFP4_MOE.gguf -ncmoe 30
        
    # -----------------------------------------------------------------------------------
        
    gemma-3n-E4B-it-Q8_0:
        name: gemma-3n-E4B-it-Q8_0
        description: быстрая ~100t\s (32k)
        cmd: ${latest-llama} F:\gguf-2\gemma-3n-E4B-it-Q8_0.gguf
        
    gemma-3-270m-it-Q8_0:
        name: gemma-3-270m-it-Q8_0
        description: ~550t\s⚡супер лаконичная (контекст 32k)
        cmd: ${latest-llama} F:\gguf-2\gemma-3-270m-it-Q8_0.gguf
        
    gemma-3-4b-it-f16:
        name: gemma-3-4b-it-f16
        description: мультимодальня ~90t\s
        cmd: ${latest-llama} F:\gguf-2\gemma-3-4b-it-f16\gemma-3-4b-it-f16.gguf --mmproj E:\gguf\gemma-3-4b-it-f16\mmproj-model-f16.gguf
        
    gemma-3-12b-it-qat-Q4_0:
        name: gemma-3-12b-it-qat-Q4_0
        description: мультимодальня ~60t\s
        cmd: ${latest-llama} F:\gguf-2\gemma-3-12b-it-qat-Q4_0\gemma-3-12b-it-qat-Q4_0.gguf --mmproj E:\gguf\gemma-3-12b-it-qat-Q4_0\mmproj-model-f16-12B.gguf
        
    gemma-3-27b-it-qat-Q4_0:
        name: gemma-3-27b-it-qat-Q4_0
        description: мультимодальня ~13t\s
        cmd: ${latest-llama} F:\gguf-2\gemma-3-27b-it-qat-Q4_0\gemma-3-27b-it-qat-Q4_0.gguf --mmproj E:\gguf\gemma-3-27b-it-qat-Q4_0\mmproj-model-f16-27B.gguf

    # -----------------------------------------------------------------------------------  
    
    Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE:
        name: Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE
        description: мультимодальня ~...t\s
        cmd: ${latest-llama} E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE.gguf --mmproj E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE\mmproj-F16.gguf
        
    Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE:
        name: Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE
        description: мультимодальня ~80t\s (думающая)
        cmd: ${latest-llama} E:\gguf\Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE\Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE.gguf --mmproj E:\gguf\Qwen3-VL-30B-A3B-Thinking-1M-MXFP4_MOE\mmproj-F16.gguf
        
    # ----------------------------------------------------------------------------------- 

    HyperNova-60B-MXFP4_MOE:
        name: HyperNova-60B-MXFP4_MOE
        description:  ~43t\s (думающая) маленькое контекстное окно 4096
        cmd: ${latest-llama} F:\gguf-2\HyperNova-60B-MXFP4_MOE.gguf  

    # -----------------------------------------------------------------------------------        

    Qwen3-30B-A3B-Deepseek-Distill-Instruct-2507-MXFP4_MOE:
        cmd: ${latest-llama} E:\gguf\Qwen3-30B-A3B-Deepseek-Distill-Instruct-2507-MXFP4_MOE.gguf -ncmoe 25
        
    Qwen3-Coder-30B-A3B-Instruct-MXFP4_MOE:
        cmd: ${latest-llama} E:\gguf\Qwen3-Coder-30B-A3B-Instruct-1M-MXFP4_MOE.gguf -ncmoe 25

    MiroThinker-v1.0-30B-MXFP4_MOE:
        cmd: ${latest-llama} :\gguf\MiroThinker-v1.0-30B-MXFP4_MOE.gguf -ncmoe 30
        
    Trinity-Mini-MXFP4_MOE:
        cmd: ${latest-llama} F:\gguf-2\Trinity-Mini-MXFP4_MOE.gguf -ncmoe 8
        
    rnj-1-instruct-Q8_0:
        cmd: ${latest-llama} F:\gguf-2\rnj-1-instruct-Q8_0.gguf -ncmoe 0

Ну и OpenWebUI подключён к llama-swap и sdnext для генерации изображений.

Запускаем Qwen3-VL-30B на 48GB VRAM

Incognito4pda Jan 5 at 23:46

Прошу прощения за беспокойство. Это я затупил. Как только вы написали про --mmproj понял куда копать.

Запускал так:

llama-server -m "E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE.gguf" --port 11434 --host 172.16.0.7 --jinja

А нужно вот так:

llama-server -m "E:\gguf\Qwen3-VL-30B-A3B-Instruct-1M-MXFP4_MOE.gguf" --mmproj "E:\gguf\mmproj-F16.gguf" --port 11434 --host 172.16.0.7

Благодарю за наводку!

Запускаем Qwen3-VL-30B на 48GB VRAM

Incognito4pda Jan 4 at 14:41

Здравствуйте! Подскажите пожалуйста. Почему у меня эта модель в упор не хочет видеть изображения? Всё уже перепробовал, итог всегда один:

Домашний супер-компьютер для ИИ: какой выбрать в 2025?

Incognito4pda Dec 28 2025 at 09:08

Какие то странные результаты теста у вас по ссылке. Вот мои на RTX 5080 / 96 GB RAM / 9950x3D:

gpt-oss-120b (RTX 5080 / 96 GB RAM / 9950x3D)

gpt-oss-20b (RTX 5080 / 96 GB RAM / 9950x3D)

Краткий обзор 10 локальных UI для LLM

Incognito4pda Oct 26 2025 at 19:55

Это просто чудо! Благодаря вам удалось выжать ~30 t/s по сравнению с Ollama (15 t/s) двухкратный прорость скорости! Спасибо вам огромное!

Запускаю вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 32768 -fa auto -ncmoe 29 --jinja

(-ncmoe 29 подбирал опытным путём, смотрел через диспетчер задач при каждом запуске сколько кушает vram)

И да, вы точно указали, как только выходит за рамки vram скорость снижается до ~10 t/s

Вот думаю теперь скинуть свою оперативу и взять два комплекта по 96гб т.к. меня в принципе устраивает модель (gpt-oss-120b) по точности и адекватности ответа, но ещё ж и приложениям требуется память. Мне было комфортно и с 15 t/s (главное можно читать текст в процессе генерации, пока он не убежал за скролл) но теперь вдохновился скоростью работы и буду подключать к IDE. Хочу вот ещё одну хорошую moe модельку llama4:16x17b попробовать.

Можно ещё вопросик? Помимо 5080 16гб есть у меня и 6900XT 16гб, как думаете, если я подключу их обе в Debian (в винде 5080 начинает себя неадекватно вести если обе работают) в режиме по х8 линий на каждую, можно ли ожидать существенного профита от такого решения? Ну вроде vram получается суммируется в 32гб + распараллеливание задач аж на целых два достаточно производительных чипа. Стоит ли игра свеч?

Краткий обзор 10 локальных UI для LLM

Incognito4pda Oct 25 2025 at 19:54

Здравствуйте. Решил попробовать ваш метод запуска модели GPT-OSS-120b получилось так: через Ollama 15 t/s , через llama-server 26 t/s. Благодарю, это очень круто, можно таким образом "разогнать" модель! Позвольте задать вам пару вопросов:

Скажите пожалуйста, я могу на llama-server запустить уже скачанную для Ollama модель или так же придётся загружать с hf формат gguf модельки?

И вот ещё мне непонятно, я запускаю по вашему шаблону вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 65536 -fa auto -cmoe --jinja

работает хорошо и быстро (26 t/s) vram кушает всего 6гб, ram ~70гб!

Но как только начинаю играться с параметрами, шаг влево - шаг вправо забивает полностью vram (5080 16гб) и под завязку оперативу (96гб). И так к примеру пробовал --threads 12 --gpu-layers 20 --n-cpu-moe 8 и сяк -c 65536 -fa auto -ncmoe 12 --jinja ... в общем пробежался по вашим постам и комментариям, пробовал многое и хоть ты тресни! как только отхожу от вашего шаблона с предыдущего поста, тупо сжирает всю память и на этом всё заканчивается.

Может подскажете как мне задействовать, ну скажем 14гб vram для большей производительности? А то вот везде в гайдах к llama пишут экспериментируйте с параметрами под свою систему, но вот у меня что то не срастается заняться экспериментами.

Краткий обзор 10 локальных UI для LLM

Incognito4pda Oct 24 2025 at 19:23

К чему это всё? GPT-OSS-120b уже давным давно спокойно работает на Ollama.

Программы для Windows, которые повысят вашу продуктивность и сделают работу комфортной

Incognito4pda Oct 12 2025 at 20:05

Ребята, посоветуйте плиз достойную утилиту управления мониторами. Вроде сейчас модно ставить перед глазами кучу мониторов, но проблема управления всем этим хороводом почему то не обсуждается.

Ollama предоставила бесплатный API для веб-поиска

Incognito4pda Sep 29 2025 at 06:58

Подскажите плиз, может кто знает как оплатить Ollama cloud из РФ? Вот не сталкивался до сих с оплатой зарубежных сервисов. Даже не знаю с чего и начать, поиск выдаёт кучу контор, но какие из них нормально работают, не понятно.

2 3 ...

7 8