Pull to refresh

Comments 6

nanbeige/Nanbeige4-3B-Base небольшая модель которая может быть лучше крупных

И чем?

Смотря в чем , щас народ делает узкоспециализированные 3b модели под конкретные задачи по типу вызова команд или похода в веб , но они все равно туповаты . Из того что я видел если у тебя не железобетонная задача под которую модель тренировалась , минимум нужно 7 миллиардов параметров. Меньше она просто не поймет что ты от нее хочешь и сделает как требуешь но совершено не то .

Еще года два назад пробовал играть с LMStudio , но это чисто игрушка ничего нормально без хорошего железа из нее не выдавишь , а это главный ботелнек , если через года полтора все эти двухцветные ракетчики загнутся со своими дата-центрами возможно на рынок попрут h200 и подобные , вот сними уже можно попытаться что то локальное изобразить . Даже возможно агента себе сделать , на замену гпт и остальным .

Про gpt-oss:120b - 61 gb даже не знал, спасибо за инфу

Уже пару лет работаю через kobold cpp с gguf моделями. Ту же gemma 12b запустить на 3060 и 32оперативки.

Sign up to leave a comment.

Articles