Обновить

Локальный запуск openai/gpt-oss-20b MXFP4 GGUF на ноутбуке без дискретной видеокарты: практический тест на 32 GB RAM

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.8K
Всего голосов 12: ↑10 и ↓2+13
Комментарии6

Комментарии 6

Не тратьте время на LM Studio, а переходите на llama.cpp. Там все настраивается гораздо гибче. Вы сами можете задать какое количество ресурсов использовать. Если например имеется 30 гигабайт памяти, то с помощью параметров можно рассчитать чтобы использовалось именно 30 гигабайт, не больше и не меньше. Нужен большой размер контента - используете более агрессивное квантование кэшей и тд. Это я к тому, что ваш показатель "минимальный запас RAM" бессмысленнен. Оставшуюся свободную память можно использовать чтобы повысить качество генерации.

То что llama.cpp более гибкий инструмент, не спорю.

Статья была не про максимальную ручную оптимизацию, а про другой практический сценарий: запуск модели через LM Studio как через готовый UI инструмент. Для части пользователей это не "трата времени", а нормальный способ быстро проверить модель без ухода в параметры llama.cpp.

Запас RAM это важная метрика: ноутбук используется не в вакууме, параллельно обычно открыты браузер, IDE, мессенджеры и фоновые процессы. Если после запуска модели остаётся 1-2 GB свободной памяти, это уже влияет на комфорт и стабильность.

Потребление памяти как-то получилось завышенным: 64k контекста занимает 15Гб видеопамяти примерно; полный контекст порядка 19 Гб видеопамяти. Проверил на убунту 24.04.3 получилось 19 VRAM + 8 RAM = 27 ГБ суммарно вместе с операционной системой и даже браузером firefox. Субъективно qwen 3.6 27b и 35b кажутся более точными (на С++ коде)

На системе с отдельной vram картина ожидаемо будет другой.

В моём случае тест был именно про ноутбук без дискретной видеокарты: Radeon 780m использует shared memory, поэтому ram одновременно нужна и системе и модели и графике. Плюс запуск был через lm studio на windows 11, без ручной настройки llama.cpp и без агрессивного квантования kv cache.

Поэтому я бы не сравнивал напрямую “19 gb vram + 8 gb ram на ubuntu” и мой сценарий с 30 gb ram на ноутбуке, это разные режимы использования памяти. В статье как раз пытался показать пользовательский сценарий “запустил в lm studio на ноутбуке без dgpu и посмотрел, насколько это комфортно”.

Про qwen интересно. Для задач по коду вполне возможно что qwen coder/qwen 3.x на C++ даст более сильный результат чем tested openai/gpt-oss-20b. Эту статью специально не делал сравнением моделей, но как направление для следующего теста звучит разумно.

  1. в комплекте llama.cpp есть тестирование производительности

  2. было бы интересней про сравнение производительности между cpu и igpu

В llama.cpp есть отдельные benchmark инструменты и для чистого сравнения производительности они подходят лучше. В статье больше смотрел на пользовательский сценарий через lm studio: запустилось ли, сколько ест RAM, какая скорость в реальных prompt задачах и насколько этим можно пользоваться.

Сравнение CPU vs iGPU идея интересная, возможно стоит сделать как отдельный мини тест.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации