Комментарии 9
Ох уж эти 24B модели в домашних ПК....
А что с ними не так? Вполне неплохо влезают в квантованном в Q4 виде в 16гб VRAM.
Это dense модель, так что 256k токенов контекста (да даже и 16к) не влезут туда вместе с моделью. kv кэш даже у квантованных моделей по дефолту 16-и битный и меньше 8 бит делать не рекомендуется, ибо глючить начинает.
Ну, 8-й квант даже с каким-то контекстом влезет в память топовой видюхи. А сейчас популярны вариации 4-го кванта, есть шанс, что эта модель будет не сильно тупеть на каком-нибудь из них.
А что сейчас лучше для локального кодинга есть в пределах 12гб видяхи и 128гб оперативы?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Mistral выпустила две модели для кодинга: одна соперничает с Claude Sonnet, вторая работает на домашнем GPU