Обновить
1
0
Николай@Restocrat

Пользователь

Отправить сообщение

Обновление!

запустил.
ключ к успеху.

- Минимальный контекст (1024)

- Отключенный prefix caching

- Уменьшенный prefill batch

- Оптимизированный gpu-memory-utilization (0.92)


бэкенд не работает тока...) разбираюсь в этим

Я проверил все комбинации на vLLM (2048–8192, gpu_utilization до 0.95) – после загрузки весов KV-cache остаётся отрицательным и движок не стартует. Подскажи, пожалуйста, на каком именно движке и с какими параметрами у тебя получилось запустить gpt-oss-20b на 16 GB.


  1. На каком движке у вас реально запускался gpt-oss-20b?
    vLLM или llama.cpp (или другой)?

  2. Если vLLM – какие параметры вы использовали?

  • max_model_len

  • gpu_memory_utilization

  • dtype

  • была ли квантизация (AWQ/GPTQ)

  • использовали ли --kv-cache-dtype fp8

  1. Подтвердите конфигурацию GPU:

  • точная модель видеокарты

  • объём VRAM

  • Windows/Linux

  • WDDM или TCC (если Windows)

  1. Есть ли у вас лог строки Available KV cache memory при старте?
    Интересует конкретное значение.

  2. Использовался ли CPU / RAM offload или multi-GPU?

  3. Контекст при котором модель стартовала стабильно?
    2048 / 4096 / другое

llm ставлю , но контейнер падает. по логам не хватает памяти на карте. делал квантизацию, тоже контейнер падает. как думаете, в чем может быть дело?
4060 ti 16 gb

Никита. Поддерживаю. Как человек науки на счёт понимания быстрого тоже поддержу - вы правы. Но ещё больше эта история ложится на внутренние духовные аспекты языка и психики. Которые при написании кожа много чего внутреннего проявляют очень важного.

Считаю всех тех кто ставит стрелочки вниз на ваш пост- лишь их отражением личной глубокой проблемы, зависти или глупости. Продолжайте работу

Почему не в n8n?

Информация

В рейтинге
6 261-й
Зарегистрирован
Активность