Если нужна нейронка как факт, можно попробовать что то из разряда 4B/8B, что то больше скорость уже будет не ахти. Модели 9B уже сносные к нормальному использованию, даже кодить могут. По скорости, на моем xeon gold 6146 12 ядер 24 потока qwen3.5 4B Q4 K M скорость была 21 токен в секунду, что вполне прилично
Если нужна нейронка как факт, можно попробовать что то из разряда 4B/8B, что то больше скорость уже будет не ахти. Модели 9B уже сносные к нормальному использованию, даже кодить могут. По скорости, на моем xeon gold 6146 12 ядер 24 потока qwen3.5 4B Q4 K M скорость была 21 токен в секунду, что вполне прилично