Comments 11
Перед запуском нужно иметь в виду, что, например, в 16ГБ такая модель, вероятно, не влезет. И в 32, думаю, тоже.
Квантизованная модель отлично влезет в 32ГБ, в 24 придется скинуть пару слоев на процессор чтобы влезло хоть немного контекста или использовать что-то типа 3Q GGUF. Зато в 24ГБ отлично влезет 4x7b GPTQ, (вдвое меньше экспертов, но зато комфортно влезает в потребительские ускорители)
Другой вопрос что сейчас все это довольно сложно запустить, но библиотеки/фреймворки скоро подтянутся.
LMstudio 029 уже предварительно умеет. Я даже скачал q4_k_m но попробовать не успел - новая версия не видит ни одной из десятка скачаных моделей. (все аботали раньше) хотя и позволяет загрузить ту, что в сохраненных чатах запомнила.
GPTQ и GGUF от TheBloke уже есть, но они конечно работают пока не в основных ветках библиотек.
Вы о чем? На 1080ti 11Gb замечательно работает
Коллеги, если вдруг кому-то хочется погонять вживую, то я уже выложил её на VseGPT.ru (можно через чат или API, кому как нравится). Впечатления в целом от модели приятные.
... я уже выложил её на VseGPT.ru
Если не секрет, на каком железе вы подняли?
Примеряемся поднять у себя.
Западный API проксируем, если честно - там стоимость за генерации в целом. Что интересно, предлагают по цене 7B моделей, что приятно удивляет - хотя, возможно, это временная акция.
Вообще есть вот в GGUF-формате - (V)RAM требуется в меру много, но можно глянуть предполагаемые требования: https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF
попробовал по ссылке автора. Да, модель субъективно работает хорошо.
даже подзалип немного
Народ уже поговаривает о менее чем 1 битной квантизации https://github.com/ggerganov/llama.cpp/issues/4445
Что-то у меня другой ответ ))
Я поднял на бесплатном (до марта) GCE t2a с 32 Gb RAM и 8 ядрами, все влезло и не так уж медленно работает. Спасибо ollama
Mixtral 8x7B – Sparse Mixture of Experts от Mistral AI