softel19 фев в 18:36

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

3 мин

11K

Искусственный интеллектНастольные компьютерыНоутбуки

Комментарии 55

zbot 19 фев в 19:39

а какой уровень reasoning этой модели вы таки использовали?

softel 19 фев в 19:43

Поясните подробней.

zbot 19 фев в 20:25

softel 19 фев в 20:27

В моей оболочке не так выглядит, но все настройки на максимум, если это вам поможет.

zbot 19 фев в 20:39

я потому и интересуюсь, что минут 20 gpt-oss-20b решала эту задачу и решить не смогла, на 5060ti (16gb)

точнее говоря я не дождался от нее решения, по причине что там уже начали мелькать в размышлениях карандаши и прочие галюцинации.

softel 19 фев в 20:58

Вы запускаете на windows?

Если да, то мне кажется запуск инференса на win платформе вообще малоперспективная задача, но это не утверждение, а только мое предположение.

Во вторых 16Гб видеопамяти возможно недостаточно для этой модели.

Нужно смотреть на то, какие ресурсы у ПК задействованы во время работы модели, в Linux это довольно просто, а в windows незнаю.

Скорее всего проблема в том что ваша видеокарта единственная в системе и часть ее видеопамяти уже занята системой для отображения на мониторе того что вы делаете.

В моей системе сейчас 2 видеокарты RTX4090 модернизированные китайцами до 48Gb видеопамяти в каждой и еще видеокарта процессора I9 которая выводит изображение на экран. Но я не пользуюсь экраном этого компьютера, так как подключаюсь к нему с рабочего ноутбука через сеть.

Вот так примерно выглядит мой состав видеоадаптеров

zbot 19 фев в 21:29

конкретно для этой модели с контекстом 32к

softel 19 фев в 21:42

Ну я так и понял что ты запускаешь в винде, там все плохо.

Вот как у меня на линуксе работает с контекстом 130к и модель 120b

softel 19 фев в 21:43

Установи ubunutu 24.04, все возможно станет быстрей

Zippy 19 фев в 19:39

Основная вычислительная нашрузка требуется на обучение . Получение ответа намного легче. То что разные ответы означаент что алгоритм рабпты зависит от процессора. Чего по идее не должно быть. То есть проблема не в процессоре а в том что апускаются по сути разные программы. CPU просто должен был долбше работать для того же ответа

softel 19 фев в 19:42

Для меня это вот как раз и стало загадкой, которую теперь пытаюсь решать.

zbot 19 фев в 20:25

softel 19 фев в 20:34

Вы создаете ответы с пустыми сообщениями.

zbot 19 фев в 20:44

сожалею, я отвечал на предыдущий комментарий, но так получилось что скриншот опубликовался в этом. А поскольку удалить комментарий тут по странному стечению обстоятельств невозможно, я его "обнулил"

zbot 19 фев в 20:13

ministral-3-14B-reasoning-2512 Q5_K_M размышлял примерно 10 минут потом решил плотник ест пицу и держит крокодила

deepseek и qwen3 определили что пицу ест плотник а крокодила никто не держит, но поскольку остальных животин они раскидали правильно то крокодил оставался только за програмистом.

softel 19 фев в 20:29

Не переживайте, данную задачу не решил ни Гигачат ни GPTChat ни Grok

При чем Гигачат её не решил даже с четвертой попытки, GPT и Grok решили со второй, причем времени у них заняло более 3 минут. Ну это конечно понятно, к моей нейросети имеют доступ немного людей, а к этим Грокам сотни тысяч. Но факт в том что локальный запуск LLM намного эффективней.

zbot 19 фев в 20:47

Грок -

26 секунд

softel 19 фев в 20:59

А решение то где?

zbot 19 фев в 21:08

Решение:

Первый склад — плотник (по условию).
Красный склад рядом с плотником → красный на позиции 2.
Желтый стоит сразу справа от синего → возможна только пара: синий — 4, желтый — 5 (остальные варианты конфликтуют).
В центре (3) едят пельмени → значит желтый (5) не центр, всё согласуется.
Белый склад пьёт вино. Склад 1 может быть белым (другие варианты приводят к противоречиям) → склад 1 белый и там пьют вино.
Каменщик работает в зелёном складе → зелёный склад 3, значит там каменщик.
Склад рядом с тем, где держат тигра, пьёт вино → вино на складе 1, значит тигр на складе 2.
Портной держит леопарда → склад 2 не может быть портным (там тигр). В итоге портной — склад 4, и там леопард.
Электрик ест хлеб → он не может быть на складе 4 (там макароны позже) и не на 5 (там котлета). Значит электрик — склад 2, и там хлеб.
Тот, кто пьёт виски, ест макароны → остаётся склад 4 (там макароны и виски).
Программист пьёт ром → программист не может быть на складе 4 (там виски), значит он на складе 5 (ром).
Водку пьёт склад 2 (иначе возникают противоречия с соседями и животными). Тогда сосед водочника держит медведя → склад 1 держит медведя (склад 3 уже занят пумой далее).
Коньяк разводит пуму → коньяк на складе 3, там же пума.
Остаётся единственное свободное животное — крокодил → он на складе 5.
По продуктам: склад 5 — котлета, склад 3 — пельмени, склад 4 — макароны, склад 2 — хлеб. Остаётся пицца → на складе 1.

softel 19 фев в 21:15

А почему Грок не смог сказать проще?

И из этой кучи текста пока все равно не видно четкого ответа.

zbot 19 фев в 21:18

помоему проще некуда - он решение в виде таблицы выдал

softel 19 фев в 21:20

А толку от этой таблицы?

Где четкий ответ?

типа такого

zbot 19 фев в 21:25

softel 19 фев в 21:27

А как из этой таблицы понять ответ?

НЛО прилетело и опубликовало эту надпись здесь

zbot 19 фев в 21:00

алиса с первой попытки определила что плотник ест пиццу и обрвала ответ, на вопрос а кто держит крокодила она подумала еще 3-4 минуты и выдала:

Пиццу ест плотник (склад 1).
Крокодила держит каменщик (склад 5).

softel 19 фев в 21:04

Эта Алиса тупая пока, как пробка.

Зато быстро отвечает. Одна проблема что очень часто неправильно. Хотя на простые запросы может и истину сказануть. Но на простые вопросы неплохо отвечают модели которые можно запустить даже без GPU, ну медленней конечно.

dkeiz 20 фев в 06:36

странно вы все это подаете. GLM 5 решил за 95 секунд, DeepSeek в DeepThink за 200 секунд, без deepthink тоже ответил правильно. OSS20b в low выдал не правильный ответ, в medium за 150с ответил уже правильно. Вам бы тщательнее все это анализировать, хотя любые детерминированные задачи для LLM, которые можно засунуть в Eval'ы это сомнительные тесты.

st---v 19 фев в 20:23

я был бы щастлив, если бы вы провели так же сравнение с компом, оснащённым встроенным NPU. скажем, системой на AMD Ryzen AI Max+ 395 + 128гб озу. давно на него засматриваюсь!
вот это было бы реально интересно!

softel 19 фев в 20:42

Ну, тут извините ничем не могу помочь, я публикую только свой опыт и на основе того что у меня есть, платформа AMD Ryzen AI Max+ 395 + 128гб меня не интересует, слишком мала для моих мечтаний. Я сейчас рассматриваю возможность заменить железо своего "сервера" на реальное серверное железо, а именно на amd threadripper pro 7965wx-7975wx. Но это весьма дорого и пока я сам с собой не договорился на эти затраты. );

st---v 19 фев в 21:49

позвольте спросить - вы свой стенд наворачиваете, чисто как энтузиат-любитель для личных исследований или есть идеи какого-то стартапа, для работы или как-то иначе хотите монетизировать?

softel 19 фев в 21:55

Ну это сложный вопрос, с одной стороны я наворачиваю как энтузиаст, а с другой стороны для оптимизации некоторых процессов свой организации если у меня все получится.

st---v 20 фев в 11:27

а я пытаюсь пробить в нашей конторе 500к на закупку оборудования. но чего-то жмутся, хотя на словах активно поддерживают внедрение ИИ...

softel 20 фев в 12:01

Ну при текущих ценах 500к это весьма маловато я думаю для реализации ИИ для конторы. Мне эта дерзкая идея клюнула в голову прошлым летом, до взвинчивания цен на память. И с учетом того что основные компоненты я привез из Китая вылилось почти в 1 млн., сейчас есть идея апгрейда, но на нее нужно тыщ 700 и пока я себя не уговорил на это, ну и китайский новый год еще не закончился, половину конечно я отобью продав оставшееся железо после подернизации. Но всеравно очень дорого.

zbot 19 фев в 21:11

glm-4.7-flash-reap-23b-a3b за 30 минут не справилась

softel 19 фев в 21:30

Если при инференсе на CPU то неудивительно

hubabubabagz 19 фев в 23:43

Есть задачи на которых ллм дает неопределенный ответ, может ответить правильно, может неправильно, по одному прогону делать такие выводы нельзя.

softel 19 фев в 23:45

Я никогда не делаю один прогон что бы что то утверждать.

WinPooh32 20 фев в 04:34

Ответ, конечно, неправильный, но для статистики выложу:
Qwen3-Coder-Next на 78Гб DDR4 RAM 3200 частота, amd 7900xtx на 24Гб VRAM по PCI-E 3.0, ryzen 5700x3d:

Я думаю, правильный ответ:
✅ Плотник ест пиццу.
✅ Плотник держит крокодила.
Поскольку в таблице, где 1: плотник, 1: пицца, и единственное животное, которое не использовано в других >позициях — крокодил.
Ответ: плотник ест пиццу и держит крокодила.
Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf 9,299 tokens 8min 40s 17.86 t/s

По софту: llama-swap + llama.cpp (версия b8100).
Просто на CPU выдавливает 5 t/s.

Мой конфиг для llama-swap:

healthCheckTimeout: 300
logRequests: true
metricsMaxInMemory: 1000

macros:
  llama-server: >
      "/run/host/run/media/system/Data/aivibe/llama.cpp/build/bin/llama-server"
      --parallel 1
      --port ${PORT}
      --offline
      --flash-attn on
      --jinja
      --timeout 1200
      --ctx-checkpoints 8
      --cache-ram 4096
      --kv-unified
  models: "/run/host/run/media/system/Data/aivibe/models"

models:
  "qwen3-coder-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 200000 --fit-ctx 200000
      --fit-target 2048
      -ub 4096 -b 4096
      --temp 0.55
      --top-p 0.95
      --top-k 40
      --min-p 0.01
      --repeat-penalty 1.0
      -m "${models}/Qwen3-Coder-Next-UD-Q6_K_XL/Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf"

Мне модель в агентном режиме очень сильно зашла, гоняю через Claude code cli (другие сильно хуже). Простенькие кодерские задачки решает на ура. Даже есть мысли на сервере поднять как "умный" линтер для пулл реквестов на проекте и как анализатор почему тесты падают (по коду ориентируется неплохо). Это вообще у меня первая локальная модель, которая нормально смогла в агентный режим :)

WinPooh32 20 фев в 04:45

А вот ответ от обычной (не кодерской) версии модели:

✅ Ответ:
Пиццу ест плотник. Крокодила держит программист.
Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf 6,201 tokens 3min 51s 26.74 t/s

Конфиг:

  "qwen3-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 100000 --fit-ctx 100000
      --fit-target 1536
      -ctk q8_0 -ctv q8_0
      -ub 4096 -b 4096
      -m "${models}/Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf"

НЛО прилетело и опубликовало эту надпись здесь

WinPooh32 21 фев в 03:24

Возможно, unsloth что-то испортили с динамическим квантованием. Перепроверю на обычной версии тогда. Вот Qwen3-Next как раз обычная была и ответ был верный.

upd: похоже на рандом, потому что на новый прогон получил уже корректный ответ за то же время и расход токенов:

Ответ:
Пиццу ест плотник.
Крокодила держит программист.

repen 20 фев в 05:23

У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server

triller599 20 фев в 17:37

И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ?
Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.

WinPooh32 21 фев в 03:58

Да, заработает. Веса модели занимают 14гб. Если включить квантование контекста хотя бы до 8 бит, то в оставшиеся 2гб можно побольше уже контекст запихнуть. Если через llama.cpp с флагом -cmoe, то скорее всего даже весь контекст можно будет использовать, доступный для модели, но возрастет потребление обычной памяти и часть нагрузки уйдет на CPU с просадкой по скорости.

Если обычной ОЗУ много, то получится gpt-oss-120b, qwen3-next, qwen3-coder-next запустить на этой карте. Вот в соседней статье на 6 гиговой карте запускали. Так как часть нагрузки пойдет на проц, то он тоже должен быть достаточно мощный, и шину PCI-E 4-5 версии желательно с ddr5 ОЗУ :)

triller599 7 мар в 18:32

Благодарю за ссылки и совет.

repen 21 фев в 15:31

да работает и памяти для контекста хватает

rusatch 20 фев в 06:46

Ollama, qwen3-vl:30b-a3b-instruct-q4_K_M
RTX3090

Со второй попытки, на первой зациклилась:

Ответ:

Кто ест пиццу? — Плотник
Кто держит крокодила? — Программист

НЛО прилетело и опубликовало эту надпись здесь

LuckyJewish 20 фев в 10:02

Я в шоке, что это было в пределах 30 минут на CPU...

Офигеть

НЛО прилетело и опубликовало эту надпись здесь

softel 20 фев в 14:06

Всмысле 3 часа?

programania 20 фев в 21:48

памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению.
...запуск инференса на win платформе вообще малоперспективная задача,
...ты запускаешь в винде, там все плохо.

У меня на простом ПК i5-13500 14t, 64гб DDR5 4800 мгц в windows 10 запускается bartowski/openai_gpt-oss-120b-MXFP4.gguf
командой: llama.cpp-b6959\build\bin\release\llama-server.exe -m d:\models\openai_gpt-oss-120b-MXFP4.gguf -t 14 -c 16000
Занимает примерно 60 гб RAM. GPU не используется, только CPU.
Головоломку решала 13 минут:
prompt eval time = 7260.75 ms / 293 tokens ( 24.78 ms per token, 40.35 tokens per second)
eval time = 819418.54 ms / 9689 tokens ( 84.57 ms per token, 11.82 tokens per second)
total time = 826679.29 ms / 9982 tokens
За это время выдала:
после <|channel|>analysis 37667 символов размышлений в основном на английском и затем
после <|channel|>final правильный ответ на русском:

Кто ест пиццу? - Пиццу ест плотник (на первом складе, в белом помещении).
Кто держит крокодила? - Крокодила держит программист (на пятом складе, в жёлтом помещении).

Похоже LLM перебирала и проверяла все варианты.

openai_gpt-oss-120b-MXFP4.gguf можно запустить и на 32 гб RAM на CPU
со скоростью 5 токенов в сек. или 16 символов в сек.

Loco2k 20 фев в 22:27

oss-20b на 4080 - правильно 2:09
контекст 16К
имхо, тут будет сильно всё зависеть от тонких настроек ризонинга, температуры и пр.
первый результат - температура 1.
при температуре 0.75, думал дольше в два раза. написал правильно, но странно. контекст превышен

oeditus 22 фев в 17:45

Фраза «Программист пьет ртом.» сделала меня счастливым, даже когда я понял, что неверно её прочитал.

А вот решение этой задачи на языке программирования, которому 50 с лишним лет: https://habr.com/ru/articles/885668/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий