Pull to refresh

Comments 11

Перед запуском нужно иметь в виду, что, например, в 16ГБ такая модель, вероятно, не влезет. И в 32, думаю, тоже.

Квантизованная модель отлично влезет в 32ГБ, в 24 придется скинуть пару слоев на процессор чтобы влезло хоть немного контекста или использовать что-то типа 3Q GGUF. Зато в 24ГБ отлично влезет 4x7b GPTQ, (вдвое меньше экспертов, но зато комфортно влезает в потребительские ускорители)
Другой вопрос что сейчас все это довольно сложно запустить, но библиотеки/фреймворки скоро подтянутся.

LMstudio 029 уже предварительно умеет. Я даже скачал q4_k_m но попробовать не успел - новая версия не видит ни одной из десятка скачаных моделей. (все аботали раньше) хотя и позволяет загрузить ту, что в сохраненных чатах запомнила.

GPTQ и GGUF от TheBloke уже есть, но они конечно работают пока не в основных ветках библиотек.

Коллеги, если вдруг кому-то хочется погонять вживую, то я уже выложил её на VseGPT.ru (можно через чат или API, кому как нравится). Впечатления в целом от модели приятные.

... я уже выложил её на VseGPT.ru

Если не секрет, на каком железе вы подняли?
Примеряемся поднять у себя.

Западный API проксируем, если честно - там стоимость за генерации в целом. Что интересно, предлагают по цене 7B моделей, что приятно удивляет - хотя, возможно, это временная акция.

Вообще есть вот в GGUF-формате - (V)RAM требуется в меру много, но можно глянуть предполагаемые требования: https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF

попробовал по ссылке автора. Да, модель субъективно работает хорошо.
даже подзалип немного

Я поднял на бесплатном (до марта) GCE t2a с 32 Gb RAM и 8 ядрами, все влезло и не так уж медленно работает. Спасибо ollama

Sign up to leave a comment.

Articles