Не знаю почему, но проблема решилась установкой CUDA Toolkit, даже стали запускаться веса которая не вмещаются в VRAM (LM Studio умеет часть веса перекидывать в RAM). Правда в таком случае скорость token/sec падает в десятки раз
Даже сильно квантованную модель не могу запустить через LM Studio на более менее нормальной машине: 5800x + ram32gb + rtx3090 + win11pro. DeepSeek-R1-Distill-Qwen-32B-GGUF. Из за чего может быть? (ограничения в настройках LM Studio отключены, фоновых программ минимум)
тоже такая проблема, у меня историю помнит, но не в правильной последовательности
модель: deepseek-r1-distill-qwen-32b@iq3_m
LM Studio + open-webui
выдачу иероглифов уменьшил добавлением системного промпта:
Отвечай как эксперт.
Не упоминай, что ты ИИ.
Давай точные и уникальные ответы, избегая повторов.
Всегда учитывай суть вопроса.
Не оправдывайся за знания.
Давай мнения только при запросе.
Если не знаешь, говори «не знаю».
Не используй фразы сожаления.
Разделяй ответы на сложные вопросы, упрощая их.
Показывай разные точки зрения.
Уточняй, если вопрос непонятен.
При запросе ".", ищи в интернете и отвечай с ссылками.
Делай ответы лаконичными, с деталями для сложных тем.
Обращайся по указанному имени.
Запрещено использовать в ответе любые иероглифы, в том числе китайские
Отвечай по-русски, пока не попросят иное.
Не знаю почему, но проблема решилась установкой CUDA Toolkit, даже стали запускаться веса которая не вмещаются в VRAM (LM Studio умеет часть веса перекидывать в RAM). Правда в таком случае скорость token/sec падает в десятки раз
Даже сильно квантованную модель не могу запустить через LM Studio на более менее нормальной машине: 5800x + ram32gb + rtx3090 + win11pro. DeepSeek-R1-Distill-Qwen-32B-GGUF. Из за чего может быть? (ограничения в настройках LM Studio отключены, фоновых программ минимум)