Как стать автором
Обновить

Комментарии 11

Там есть ещё лайт вариант который в 5 кванте с 12гб всё равно обгоняет Codestral. И полная модель MoE, по скорости инференса сопоставима с 22B моделями что делает возможным её запуск в оперативной памяти на 6/8 канальных сетапах.

Откуда инфа что q5 версия обгоняет codestal?

Статью дополнили с таблицей, но когда я писал комментарий я смотрел на ai-can-code benchmark

Модель, модель...
Модель чего??

Все указанные .gguf ссылки не работают на llama.cpp (самое последней master, только что проверил), пишут что

llama.cpp unknown model architecture: 'deepseek2'

притом что штатный convert.py ее поддерживает, это значит квантизацией занимались под какую то другую версию llama.cpp

ага, конвертировать можно но вот запустить нет, та же ошибка

моя ошибка, llama.cpp изменили наименование бинарников на llama-main, llama-quantize а make clean старые не удалили, пересобирая из исходников новые бинарники не заменяли старые, а я по привычке старые main запускал.

Довольно интересно все это попробовать.

Отдельно спасибо за описание того, на чем это все можно локально запустить! Пробовал TabbyML, в качестве этакой замены copilot, сейчас бегло с телефона посмотрел Continue и он уже выглядит очень мощной и многофункциональной штукой. Если квантованная модель поместится в видеопамять, будет здорово иметь локального помощника в случае чего.

Если кому надо, сделал OpenAI API-совместимый доступ к большой модели (236B) у себя на сервисе. Можно к Continue подключить, например - плагин поддерживает сторонние OpenAI API сервера для моделей.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории