Pull to refresh
4

Enterprise search

1
Rating
Send message

Да бросьте вы, все всё знают, все всё понимают. Такие сказки могли ещё прокатить в конце 90х, но сейчас… Камон… Неужели у вас там с выдумкой так плохо? Отрицательный отбор паразитов во всей своей красе.

Наш антропоцентрический мир рушится

Начальство (Вышка - это же начальство?) пугает - срочно проверяй карманы!

гемма-4 и квин-3.6. Лучше по всем параметрам. Не путать с параметрами модели )

В обычном режиме каждый нейрон разрывает 2-3 и образовывает 2-3 новые связи каждый день. Но примерно раз в месяц нейрон образует сразу ~50 новых связей. Очень полезно, если мозг занят чем-то важным в этот момент (решением проблемы тысячелетия, например). Но чаще всего тушка просто залипает в ленту или скандалит. Вот эта ботва и записывается 50 новыми связями. Пичаль…

У меня была задача запустить 2 “лучшие” плотные модели с FP8 квантом, вот что добился:

Dual FP8

Memory/startup breakdown:

  Gemma 31B FP8-block
  port: 8012
  container: dual-gemma-fp8

  max_model_len: 150000
  gpu_memory_utilization: 0.44
  model weights loaded: 31.70 GiB
  available KV cache: 17.93 GiB
  GPU KV cache size: 290,948 tokens
  max concurrency @150k: 1.94x
  actual cap: max_num_seqs=1
  GPU process memory: ~50.1 GiB
  Qwen3.6 27B FP8
  port: 8011
  container: dual-qwen-fp8

  max_model_len: 150000
  gpu_memory_utilization: 0.325
  model weights loaded: 28.51 GiB
  available KV cache: 4.98 GiB
  GPU KV cache size: 152,941 tokens
  max concurrency @150k: 1.02x
  actual cap: max_num_seqs=1
  GPU process memory: ~34.4 GiB

Current host/container memory:

  dual-gemma-fp8 docker RAM: ~5.37 GiB / 68 GiB
  dual-qwen-fp8  docker RAM: ~7.13 GiB / 50 GiB
  host RAM used: ~100 GiB
  host RAM available: ~20 GiB

Important distinction:

  • vLLM “max concurrency” means KV capacity for full 150k-token requests.

  • max_num_seqs=1 means each server is currently limited to 1 active request.

  • Together, that gives 2 total parallel requests: one Qwen + one Gemma.

  • Qwen is the tight one: 1.02x, so it cannot safely do 2 full-context requests at 150k.

Context length:

  Currently both are served with max_model_len=150000.
  • Gemma config:

export PATH="$HOME/.local/bin:$PATH"; model-shelf resolve RedHatAI/gemma-4-31B-it-FP8-block --format safetensors && docker run --rm \
  --name dual-gemma-fp8 \
  --init \
  --gpus all \
  --ipc=host \
  --shm-size=32g \
  --memory 68g \
  --memory-swap 68g \
  --oom-score-adj 900 \
  -p 0.0.0.0:8012:8000 \
  -v $HOME/.cache/model-shelf/models:/models:ro \
  vllm/vllm-openai:nightly-aarch64 \
  /models/safetensors/RedHatAI/gemma-4-31B-it-FP8-block \
  --served-model-name RedHatAI/gemma-4-31B-it-FP8-block \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --dtype bfloat16 \
  --max-model-len 150000 \
  --gpu-memory-utilization 0.44 \
  --max-num-seqs 1 \
  --max-num-batched-tokens 8192 \
  --kv-cache-dtype fp8 \
  --async-scheduling \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --load-format fastsafetensors \
  --enable-auto-tool-choice \
  --reasoning-parser gemma4 \
  --tool-call-parser gemma4 \
  --chat-template /vllm-workspace/examples/tool_chat_template_gemma4.jinja \
  --limit-mm-per-prompt '{"image": 4, "audio": 1}'
  • Qwen config:

export PATH="$HOME/.local/bin:$PATH"; model-shelf resolve Qwen/Qwen3.6-27B-FP8 --format safetensors && docker run --rm \
  --name dual-qwen-fp8 \
  --init \
  --gpus all \
  --ipc=host \
  --shm-size=32g \
  --memory 50g \
  --memory-swap 50g \
  --oom-score-adj 900 \
  -p 0.0.0.0:8011:8000 \
  -v $HOME/.cache/model-shelf/models:/models:ro \
  vllm/vllm-openai:nightly-aarch64 \
  /models/safetensors/Qwen/Qwen3.6-27B-FP8 \
  --served-model-name Qwen/Qwen3.6-27B-FP8 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --dtype bfloat16 \
  --max-model-len 150000 \
  --gpu-memory-utilization 0.325 \
  --max-num-seqs 1 \
  --max-num-batched-tokens 8192 \
  --kv-cache-dtype fp8 \
  --async-scheduling \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --load-format fastsafetensors \
  --attention-backend flashinfer \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --default-chat-template-kwargs '{"enable_thinking": false}'

Мне тоже пришлось допиливать:

OOM костыли

What is now installed

I installed a vLLM-specific guard:

  /etc/systemd/system/vllm-oom-guard.service
  /usr/local/sbin/vllm-oom-guard.sh

It watches:

  • MemAvailable

  • swap free

  • memory PSI pressure

  • kernel journal lines like:

    • NV_ERR_NO_MEMORY

    • oom-kill

    • Killed process

    • NVRM: Xid

On trigger, it runs:

  docker rm -f qwen36-vllm
  tmux kill-session -t qwen36eval
  pkill -KILL -f 'run-gemma4-vllm.sh|run-qwen36-vllm.sh|VLLM::|vllm...'

It already caught the later 160k Google Gemma failure:

  kernel-event NVRM ... NV_ERR_NO_MEMORY
  KILL reason=kernel-event

So that part is now working.

About auto-reboot

I also set this as last-resort recovery:

  kernel.hung_task_timeout_secs = 120
  kernel.hung_task_panic = 1
  kernel.panic = 20

Meaning:

  if a kernel task is stuck >120s,
  panic,
  then reboot after 20s

That is not for normal OOM. It is for the case you just hit manually: system wedged so badly that only the power button fixed it.

Тесты:

Сходил в строительный магазин, купил дрель, пересобрал её дома, смазал как следует…

Всем пока!

Сам придумал такую остроумность или у Дробышевского подсмотрел?

Когда отойдете от прихода микро-дозы эндогенной наркоты на почве фантомного доминирования, может напишите что не так с “учением Савельева” о:

  • эндогенно-канабиноидной системе

  • огромной индивидуальной изменчивости на количественном и качественном уровне по структурам мозга

  • фазах созревания мозга из ваше приведенного реферама, где нет свободного места от сслылок на работы других учёных

Докажите, что у вас есть хоть минимальная способность к осмысленному письму.

В 40 раз - это всё-таки по подполю было измерено, сами поля “только” в разы отличаются - в 3-5 раз - обычная разница. А есть ещё и качественное различие - у некоторых есть структуры, которые больше ни у кого не нашли.

А на счёт точного измерения при жизни - это, конечно, самый объективный способ, но есть метод проще: “просто” дать каждому равный доступ к развитию своих способностей. Тогда человечество рванёт к звёздам и к глубинам и по всем остальным направлениям. Тем более был удачный пример в одной стране… Но для начальства - это путь к “с метлой на задний двор” (с) или к декапитации, потому как никакое начальство на задний двор ни по доброй воле, ни по принуждению не пойдет. Поэтому и деградируем потихоньку.

Большая статья про мозг и НИЧЕГО про огромную индивидуальную измечивость по полям и подполям. МРТ - нельзя еще определять границы полей и подполей, нет достаточного разрешения. Я очень рекомендую ознакомиться с рефератом “Морфологии сознания” и, если зацепит, то прочитать полностью.

А по статье: исследования проведены замечательные - рости в богатой и обогащённой среде для развития мозга лучше, чем в бедной и однообразной. Кто бы мог подумать!

Гений, талант (структрура мозга - комбинация полей от родителей) может появиться хоть в бедной, хоть в богатой семье. Шансы на поиск, развитие и реализацию врождённых способностей - сами понимаете где больше.

А если озвучить публично эти успешные фамилии, то сразу обвинят в антисемитизме!

В наше время надо быть совсем уж недавно размороженным, чтоб верить в успешные истории гениальных фронтменов из гаража.

А вы не в курсе, где мама у Билл-Гейтса работала?

Так это биологический возраст, это другое! )

Это процесс называется - взросление. Поздравляю, немногие до него доживают )

А так да - идея ничего не стоит, а стоит - реализация решений чужих проблем или задач, а не своих. Можно, конечно, и своих, но тогда надо и платить себе самому :)

Я так понял:

Ксюша пришила 16 шопперов

Но людям просто лень

Народ понаписал кучу комментов вместо того, чтобы честно признаться, что не только лень просматривать ИИ-портянки, но и самому писать код. К сожалению, мы так устроены - мозг экономит энергию при любой возможности, что неудивительно - холодильник с едой появился буквально “мгновение” назад по сравнению со временем эволюции нас как вида. ИИ - мощнейшая эксплуатация этого “бага”.

Нужны ли вежливые слова?

Да конечно нужны. Я всегда или хвалю или ругаю, потому как через пару лет, какая-нибудь GPT 6.7, натренированная на наших логах, будет ещё “умнее”.

1
23 ...

Information

Rating
2,419-th
Registered
Activity