Я проверил все комбинации на vLLM (2048–8192, gpu_utilization до 0.95) – после загрузки весов KV-cache остаётся отрицательным и движок не стартует. Подскажи, пожалуйста, на каком именно движке и с какими параметрами у тебя получилось запустить gpt-oss-20b на 16 GB.
На каком движке у вас реально запускался gpt-oss-20b? vLLM или llama.cpp (или другой)?
Если vLLM – какие параметры вы использовали?
max_model_len
gpu_memory_utilization
dtype
была ли квантизация (AWQ/GPTQ)
использовали ли --kv-cache-dtype fp8
Подтвердите конфигурацию GPU:
точная модель видеокарты
объём VRAM
Windows/Linux
WDDM или TCC (если Windows)
Есть ли у вас лог строки Available KV cache memory при старте? Интересует конкретное значение.
Использовался ли CPU / RAM offload или multi-GPU?
Контекст при котором модель стартовала стабильно? 2048 / 4096 / другое
llm ставлю , но контейнер падает. по логам не хватает памяти на карте. делал квантизацию, тоже контейнер падает. как думаете, в чем может быть дело? 4060 ti 16 gb
Никита. Поддерживаю. Как человек науки на счёт понимания быстрого тоже поддержу - вы правы. Но ещё больше эта история ложится на внутренние духовные аспекты языка и психики. Которые при написании кожа много чего внутреннего проявляют очень важного.
Считаю всех тех кто ставит стрелочки вниз на ваш пост- лишь их отражением личной глубокой проблемы, зависти или глупости. Продолжайте работу
Обновление!
запустил.
ключ к успеху.
- Минимальный контекст (1024)
- Отключенный prefix caching
- Уменьшенный prefill batch
- Оптимизированный gpu-memory-utilization (0.92)
бэкенд не работает тока...) разбираюсь в этим
Я проверил все комбинации на vLLM (2048–8192, gpu_utilization до 0.95) – после загрузки весов KV-cache остаётся отрицательным и движок не стартует. Подскажи, пожалуйста, на каком именно движке и с какими параметрами у тебя получилось запустить gpt-oss-20b на 16 GB.
На каком движке у вас реально запускался gpt-oss-20b?
vLLM или llama.cpp (или другой)?
Если vLLM – какие параметры вы использовали?
max_model_lengpu_memory_utilizationdtype
была ли квантизация (AWQ/GPTQ)
использовали ли
--kv-cache-dtype fp8Подтвердите конфигурацию GPU:
точная модель видеокарты
объём VRAM
Windows/Linux
WDDM или TCC (если Windows)
Есть ли у вас лог строки
Available KV cache memoryпри старте?Интересует конкретное значение.
Использовался ли CPU / RAM offload или multi-GPU?
Контекст при котором модель стартовала стабильно?
2048 / 4096 / другое
llm ставлю , но контейнер падает. по логам не хватает памяти на карте. делал квантизацию, тоже контейнер падает. как думаете, в чем может быть дело?
4060 ti 16 gb
Никита. Поддерживаю. Как человек науки на счёт понимания быстрого тоже поддержу - вы правы. Но ещё больше эта история ложится на внутренние духовные аспекты языка и психики. Которые при написании кожа много чего внутреннего проявляют очень важного.
Считаю всех тех кто ставит стрелочки вниз на ваш пост- лишь их отражением личной глубокой проблемы, зависти или глупости. Продолжайте работу
Почему не в n8n?