AndrejGV9 июн в 06:34

Локальный запуск openai/gpt-oss-20b MXFP4 GGUF на ноутбуке без дискретной видеокарты: практический тест на 32 GB RAM

Средний

10 мин

Искусственный интеллектМашинное обучение * НоутбукиOpen source * Компьютерное железо

Обзор

+15

Комментарии 8

Mintavrus 9 июн в 13:27

Не тратьте время на LM Studio, а переходите на llama.cpp. Там все настраивается гораздо гибче. Вы сами можете задать какое количество ресурсов использовать. Если например имеется 30 гигабайт памяти, то с помощью параметров можно рассчитать чтобы использовалось именно 30 гигабайт, не больше и не меньше. Нужен большой размер контента - используете более агрессивное квантование кэшей и тд. Это я к тому, что ваш показатель "минимальный запас RAM" бессмысленнен. Оставшуюся свободную память можно использовать чтобы повысить качество генерации.

AndrejGV 9 июн в 13:46

То что llama.cpp более гибкий инструмент, не спорю.

Статья была не про максимальную ручную оптимизацию, а про другой практический сценарий: запуск модели через LM Studio как через готовый UI инструмент. Для части пользователей это не "трата времени", а нормальный способ быстро проверить модель без ухода в параметры llama.cpp.

Запас RAM это важная метрика: ноутбук используется не в вакууме, параллельно обычно открыты браузер, IDE, мессенджеры и фоновые процессы. Если после запуска модели остаётся 1-2 GB свободной памяти, это уже влияет на комфорт и стабильность.

SanyaZ7 9 июн в 21:14

Потребление памяти как-то получилось завышенным: 64k контекста занимает 15Гб видеопамяти примерно; полный контекст порядка 19 Гб видеопамяти. Проверил на убунту 24.04.3 получилось 19 VRAM + 8 RAM = 27 ГБ суммарно вместе с операционной системой и даже браузером firefox. Субъективно qwen 3.6 27b и 35b кажутся более точными (на С++ коде)

AndrejGV 9 июн в 21:34

На системе с отдельной vram картина ожидаемо будет другой.

В моём случае тест был именно про ноутбук без дискретной видеокарты: Radeon 780m использует shared memory, поэтому ram одновременно нужна и системе и модели и графике. Плюс запуск был через lm studio на windows 11, без ручной настройки llama.cpp и без агрессивного квантования kv cache.

Поэтому я бы не сравнивал напрямую “19 gb vram + 8 gb ram на ubuntu” и мой сценарий с 30 gb ram на ноутбуке, это разные режимы использования памяти. В статье как раз пытался показать пользовательский сценарий “запустил в lm studio на ноутбуке без dgpu и посмотрел, насколько это комфортно”.

Про qwen интересно. Для задач по коду вполне возможно что qwen coder/qwen 3.x на C++ даст более сильный результат чем tested openai/gpt-oss-20b. Эту статью специально не делал сравнением моделей, но как направление для следующего теста звучит разумно.

Shado_vi 9 июн в 16:56

в комплекте llama.cpp есть тестирование производительности
было бы интересней про сравнение производительности между cpu и igpu

AndrejGV 9 июн в 20:16

В llama.cpp есть отдельные benchmark инструменты и для чистого сравнения производительности они подходят лучше. В статье больше смотрел на пользовательский сценарий через lm studio: запустилось ли, сколько ест RAM, какая скорость в реальных prompt задачах и насколько этим можно пользоваться.

Сравнение CPU vs iGPU идея интересная, возможно стоит сделать как отдельный мини тест.

Shado_vi 11 июн в 04:47

lm studio не отображает но ощущается задержка между запросом и ответом.
cpu в этом плане может быть лучше чем igpu.
в llama.cpp benchmark это можно увидеть в цифрах.

у вашего ноутбука есть есть NPU, его например можно пристроить для векторизации данных разгрузив cpu/igpu. да и по эффективности гипотетически npu эффективней.

AndrejGV 11 июн в 08:49

Согласен lm studio больше показывает общую картину, но задержку до первого токена там легко не заметить.

Для честного сравнения надо отдельно мерить time to first token, скорость генерации и общую latency, llama.cpp здесь benchmark будет показательнее.

Про NPU интересный вариант для embeddings/векторизации данных он может быть полезнее, чем грузить cpu/igpu. Надо будет отдельно попробовать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий