Comments 7
Идея для следующего теста: взять более компактную модель взять, да сравнить больше квантализаций )
Например, ту же qwen3:235b-a22b можно запустить в fp16 на таком сервере, а потом понижать постепенно.
Нужно как то верифицировать качество генерации. Не запускать же "змейку" несколько тысяч раз. Нужен простенький но обьективный тест, хеллоуворлд они все напишут без проблем, а змейка слишком сложная для автооценки. Что-то эдакое, что можно численно измерить хотя бы (ну или передать результат заведомо более мощной LLM чтобы сама выставляла оценку)
Читал что большое количество потоков CPU, примерно больше 10 не дают особого прироста скорости генерации, было бы очень интересно ещё увидеть тест на 8-16-32 количества потоков, потому что может быть не обязательно брать много ядер, а лучше мало, но быстрых?
Просто у меня есть epyc на 16 ядер и мне интересно, если я просто докуплю ОЗУ, то смогу ли получить что-то похожее, или надо смотреть что-то с большим количеством ядер
Я подумаю над таким тестом. Но могу сказать что данное замечание актуально к тем процессорам которые имеют разные по производительности ядра. Когда при увеличении количества ядер подключаются энергоэффективные. Могу сказать что тестировал на EPYC7282 и скорость была примерное 1,8t/s
Тут важна скорость памяти, число каналов памяти. Ядра - у меня 2х канальную DDR4 "забивает" 4 ядра (на вывод, для наибыстрейшей обработки запросов нужно 8 ядер). Проц - i7-10700, так что не сказать, что ядра особо шустрые.
Я настроил в итоге использование 4х ядер - меньше греется и шумит.
Так что есть все шансы ускориться - если не все каналы используете, 16 ядер должно "хватить" на 8 каналов памяти.
Оно не влияет если вычислительная сложность модели никая и упирается в память. Гонял какие-то "крутые" локальные модели и больше ядер давало буст. А вот самая тупорылая LLAMA, у меня, буквально считается на 4 из 20 ядер и никакой буст от ядер не получаю.
Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости