Обновить

Комментарии 54

а какой уровень reasoning этой модели вы таки использовали?

Поясните подробней.

В моей оболочке не так выглядит, но все настройки на максимум, если это вам поможет.

я потому и интересуюсь, что минут 20 gpt-oss-20b решала эту задачу и решить не смогла, на 5060ti (16gb)

точнее говоря я не дождался от нее решения, по причине что там уже начали мелькать в размышлениях карандаши и прочие галюцинации.

Вы запускаете на windows?

Если да, то мне кажется запуск инференса на win платформе вообще малоперспективная задача, но это не утверждение, а только мое предположение.

Во вторых 16Гб видеопамяти возможно недостаточно для этой модели.

Нужно смотреть на то, какие ресурсы у ПК задействованы во время работы модели, в Linux это довольно просто, а в windows незнаю.

Скорее всего проблема в том что ваша видеокарта единственная в системе и часть ее видеопамяти уже занята системой для отображения на мониторе того что вы делаете.

В моей системе сейчас 2 видеокарты RTX4090 модернизированные китайцами до 48Gb видеопамяти в каждой и еще видеокарта процессора I9 которая выводит изображение на экран. Но я не пользуюсь экраном этого компьютера, так как подключаюсь к нему с рабочего ноутбука через сеть.

Вот так примерно выглядит мой состав видеоадаптеров

конкретно для этой модели с контекстом 32к

Ну я так и понял что ты запускаешь в винде, там все плохо.

Вот как у меня на линуксе работает с контекстом 130к и модель 120b

Установи ubunutu 24.04, все возможно станет быстрей

Основная вычислительная нашрузка требуется на обучение . Получение ответа намного легче. То что разные ответы означаент что алгоритм рабпты зависит от процессора. Чего по идее не должно быть. То есть проблема не в процессоре а в том что апускаются по сути разные программы. CPU просто должен был долбше работать для того же ответа

Для меня это вот как раз и стало загадкой, которую теперь пытаюсь решать.

Вы создаете ответы с пустыми сообщениями.

сожалею, я отвечал на предыдущий комментарий, но так получилось что скриншот опубликовался в этом. А поскольку удалить комментарий тут по странному стечению обстоятельств невозможно, я его "обнулил"

ministral-3-14B-reasoning-2512 Q5_K_M размышлял примерно 10 минут потом решил плотник ест пицу и держит крокодила

deepseek и qwen3 определили что пицу ест плотник а крокодила никто не держит, но поскольку остальных животин они раскидали правильно то крокодил оставался только за програмистом.

Не переживайте, данную задачу не решил ни Гигачат ни GPTChat ни Grok

При чем Гигачат её не решил даже с четвертой попытки, GPT и Grok решили со второй, причем времени у них заняло более 3 минут. Ну это конечно понятно, к моей нейросети имеют доступ немного людей, а к этим Грокам сотни тысяч. Но факт в том что локальный запуск LLM намного эффективней.

А решение то где?

Решение:

  1. Первый склад — плотник (по условию).

  2. Красный склад рядом с плотником → красный на позиции 2.

  3. Желтый стоит сразу справа от синего → возможна только пара: синий — 4, желтый — 5 (остальные варианты конфликтуют).

  4. В центре (3) едят пельмени → значит желтый (5) не центр, всё согласуется.

  5. Белый склад пьёт вино. Склад 1 может быть белым (другие варианты приводят к противоречиям) → склад 1 белый и там пьют вино.

  6. Каменщик работает в зелёном складе → зелёный склад 3, значит там каменщик.

  7. Склад рядом с тем, где держат тигра, пьёт вино → вино на складе 1, значит тигр на складе 2.

  8. Портной держит леопарда → склад 2 не может быть портным (там тигр). В итоге портной — склад 4, и там леопард.

  9. Электрик ест хлеб → он не может быть на складе 4 (там макароны позже) и не на 5 (там котлета). Значит электрик — склад 2, и там хлеб.

  10. Тот, кто пьёт виски, ест макароны → остаётся склад 4 (там макароны и виски).

  11. Программист пьёт ром → программист не может быть на складе 4 (там виски), значит он на складе 5 (ром).

  12. Водку пьёт склад 2 (иначе возникают противоречия с соседями и животными). Тогда сосед водочника держит медведя → склад 1 держит медведя (склад 3 уже занят пумой далее).

  13. Коньяк разводит пуму → коньяк на складе 3, там же пума.

  14. Остаётся единственное свободное животное — крокодил → он на складе 5.

  15. По продуктам: склад 5 — котлета, склад 3 — пельмени, склад 4 — макароны, склад 2 — хлеб. Остаётся пицца → на складе 1.

А почему Грок не смог сказать проще?

И из этой кучи текста пока все равно не видно четкого ответа.

помоему проще некуда - он решение в виде таблицы выдал

А толку от этой таблицы?

Где четкий ответ?

типа такого

А как из этой таблицы понять ответ?

НЛО прилетело и опубликовало эту надпись здесь

алиса с первой попытки определила что плотник ест пиццу и обрвала ответ, на вопрос а кто держит крокодила она подумала еще 3-4 минуты и выдала:

  • Пиццу ест плотник (склад 1).

  • Крокодила держит каменщик (склад 5).

Эта Алиса тупая пока, как пробка.

Зато быстро отвечает. Одна проблема что очень часто неправильно. Хотя на простые запросы может и истину сказануть. Но на простые вопросы неплохо отвечают модели которые можно запустить даже без GPU, ну медленней конечно.

странно вы все это подаете. GLM 5 решил за 95 секунд, DeepSeek в DeepThink за 200 секунд, без deepthink тоже ответил правильно. OSS20b в low выдал не правильный ответ, в medium за 150с ответил уже правильно. Вам бы тщательнее все это анализировать, хотя любые детерминированные задачи для LLM, которые можно засунуть в Eval'ы это сомнительные тесты.

я был бы щастлив, если бы вы провели так же сравнение с компом, оснащённым встроенным NPU. скажем, системой на AMD Ryzen AI Max+ 395 + 128гб озу. давно на него засматриваюсь!
вот это было бы реально интересно!

Ну, тут извините ничем не могу помочь, я публикую только свой опыт и на основе того что у меня есть, платформа AMD Ryzen AI Max+ 395 + 128гб меня не интересует, слишком мала для моих мечтаний. Я сейчас рассматриваю возможность заменить железо своего "сервера" на реальное серверное железо, а именно на amd threadripper pro 7965wx-7975wx. Но это весьма дорого и пока я сам с собой не договорился на эти затраты. );

позвольте спросить - вы свой стенд наворачиваете, чисто как энтузиат-любитель для личных исследований или есть идеи какого-то стартапа, для работы или как-то иначе хотите монетизировать?

Ну это сложный вопрос, с одной стороны я наворачиваю как энтузиаст, а с другой стороны для оптимизации некоторых процессов свой организации если у меня все получится.

а я пытаюсь пробить в нашей конторе 500к на закупку оборудования. но чего-то жмутся, хотя на словах активно поддерживают внедрение ИИ...

Ну при текущих ценах 500к это весьма маловато я думаю для реализации ИИ для конторы. Мне эта дерзкая идея клюнула в голову прошлым летом, до взвинчивания цен на память. И с учетом того что основные компоненты я привез из Китая вылилось почти в 1 млн., сейчас есть идея апгрейда, но на нее нужно тыщ 700 и пока я себя не уговорил на это, ну и китайский новый год еще не закончился, половину конечно я отобью продав оставшееся железо после подернизации. Но всеравно очень дорого.

glm-4.7-flash-reap-23b-a3b за 30 минут не справилась

Если при инференсе на CPU то неудивительно

Есть задачи на которых ллм дает неопределенный ответ, может ответить правильно, может неправильно, по одному прогону делать такие выводы нельзя.

Я никогда не делаю один прогон что бы что то утверждать.

Ответ, конечно, неправильный, но для статистики выложу:
Qwen3-Coder-Next на 78Гб DDR4 RAM 3200 частота, amd 7900xtx на 24Гб VRAM по PCI-E 3.0, ryzen 5700x3d:

Я думаю, правильный ответ:

✅ Плотник ест пиццу.
✅ Плотник держит крокодила.

Поскольку в таблице, где 1: плотник, 1: пицца, и единственное животное, которое не использовано в других >позициях — крокодил.

Ответ: плотник ест пиццу и держит крокодила.

Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf 9,299 tokens 8min 40s 17.86 t/s

По софту: llama-swap + llama.cpp (версия b8100).
Просто на CPU выдавливает 5 t/s.

Мой конфиг для llama-swap:

healthCheckTimeout: 300
logRequests: true
metricsMaxInMemory: 1000

macros:
  llama-server: >
      "/run/host/run/media/system/Data/aivibe/llama.cpp/build/bin/llama-server"
      --parallel 1
      --port ${PORT}
      --offline
      --flash-attn on
      --jinja
      --timeout 1200
      --ctx-checkpoints 8
      --cache-ram 4096
      --kv-unified
  models: "/run/host/run/media/system/Data/aivibe/models"

models:
  "qwen3-coder-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 200000 --fit-ctx 200000
      --fit-target 2048
      -ub 4096 -b 4096
      --temp 0.55
      --top-p 0.95
      --top-k 40
      --min-p 0.01
      --repeat-penalty 1.0
      -m "${models}/Qwen3-Coder-Next-UD-Q6_K_XL/Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf"

Мне модель в агентном режиме очень сильно зашла, гоняю через Claude code cli (другие сильно хуже). Простенькие кодерские задачки решает на ура. Даже есть мысли на сервере поднять как "умный" линтер для пулл реквестов на проекте и как анализатор почему тесты падают (по коду ориентируется неплохо). Это вообще у меня первая локальная модель, которая нормально смогла в агентный режим :)

А вот ответ от обычной (не кодерской) версии модели:

✅ Ответ:
Пиццу ест плотник. Крокодила держит программист.

Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf 6,201 tokens 3min 51s 26.74 t/s

Конфиг:

  "qwen3-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 100000 --fit-ctx 100000
      --fit-target 1536
      -ctk q8_0 -ctv q8_0
      -ub 4096 -b 4096
      -m "${models}/Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf"
НЛО прилетело и опубликовало эту надпись здесь

Возможно, unsloth что-то испортили с динамическим квантованием. Перепроверю на обычной версии тогда. Вот Qwen3-Next как раз обычная была и ответ был верный.

upd: похоже на рандом, потому что на новый прогон получил уже корректный ответ за то же время и расход токенов:

Ответ:

Пиццу ест плотник.
Крокодила держит программист.

У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server
У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server

И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ?
Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.

Да, заработает. Веса модели занимают 14гб. Если включить квантование контекста хотя бы до 8 бит, то в оставшиеся 2гб можно побольше уже контекст запихнуть. Если через llama.cpp с флагом -cmoe, то скорее всего даже весь контекст можно будет использовать, доступный для модели, но возрастет потребление обычной памяти и часть нагрузки уйдет на CPU с просадкой по скорости.

Если обычной ОЗУ много, то получится gpt-oss-120b, qwen3-next, qwen3-coder-next запустить на этой карте. Вот в соседней статье на 6 гиговой карте запускали. Так как часть нагрузки пойдет на проц, то он тоже должен быть достаточно мощный, и шину PCI-E 4-5 версии желательно с ddr5 ОЗУ :)

да работает и памяти для контекста хватает

Ollama, qwen3-vl:30b-a3b-instruct-q4_K_M
RTX3090

Со второй попытки, на первой зациклилась:

Ответ:

  • Кто ест пиццу?Плотник

  • Кто держит крокодила?Программист

НЛО прилетело и опубликовало эту надпись здесь

Я в шоке, что это было в пределах 30 минут на CPU...

Офигеть

НЛО прилетело и опубликовало эту надпись здесь

Всмысле 3 часа?

памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению.
...запуск инференса на win платформе вообще малоперспективная задача,
...ты запускаешь в винде, там все плохо.

У меня на простом ПК i5-13500 14t, 64гб DDR5 4800 мгц в windows 10 запускается bartowski/openai_gpt-oss-120b-MXFP4.gguf
командой: llama.cpp-b6959\build\bin\release\llama-server.exe -m d:\models\openai_gpt-oss-120b-MXFP4.gguf -t 14 -c 16000
Занимает примерно 60 гб RAM. GPU не используется, только CPU.
Головоломку решала 13 минут:
prompt eval time = 7260.75 ms / 293 tokens ( 24.78 ms per token, 40.35 tokens per second)
eval time = 819418.54 ms / 9689 tokens ( 84.57 ms per token, 11.82 tokens per second)
total time = 826679.29 ms / 9982 tokens
За это время выдала:
после <|channel|>analysis 37667 символов размышлений в основном на английском и затем
после <|channel|>final правильный ответ на русском:

  • Кто ест пиццу? - Пиццу ест плотник (на первом складе, в белом помещении).

  • Кто держит крокодила? - Крокодила держит программист (на пятом складе, в жёлтом помещении).

Похоже LLM перебирала и проверяла все варианты.

openai_gpt-oss-120b-MXFP4.gguf можно запустить и на 32 гб RAM на CPU
со скоростью 5 токенов в сек. или 16 символов в сек.

oss-20b на 4080 - правильно 2:09
контекст 16К
имхо, тут будет сильно всё зависеть от тонких настроек ризонинга, температуры и пр.
первый результат - температура 1.
при температуре 0.75, думал дольше в два раза. написал правильно, но странно. контекст превышен

Фраза «Программист пьет ртом.» сделала меня счастливым, даже когда я понял, что неверно её прочитал.

А вот решение этой задачи на языке программирования, которому 50 с лишним лет: https://habr.com/ru/articles/885668/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации