Pull to refresh

Comments 7

Идея для следующего теста: взять более компактную модель взять, да сравнить больше квантализаций )
Например, ту же qwen3:235b-a22b можно запустить в fp16 на таком сервере, а потом понижать постепенно.

Нужно как то верифицировать качество генерации. Не запускать же "змейку" несколько тысяч раз. Нужен простенький но обьективный тест, хеллоуворлд они все напишут без проблем, а змейка слишком сложная для автооценки. Что-то эдакое, что можно численно измерить хотя бы (ну или передать результат заведомо более мощной LLM чтобы сама выставляла оценку)

Да, нужен полноценный бенчмарк, причем какой-то локальный - под популярные сетки затачиваются отдельно )

Читал что большое количество потоков CPU, примерно больше 10 не дают особого прироста скорости генерации, было бы очень интересно ещё увидеть тест на 8-16-32 количества потоков, потому что может быть не обязательно брать много ядер, а лучше мало, но быстрых?

Просто у меня есть epyc на 16 ядер и мне интересно, если я просто докуплю ОЗУ, то смогу ли получить что-то похожее, или надо смотреть что-то с большим количеством ядер

Я подумаю над таким тестом. Но могу сказать что данное замечание актуально к тем процессорам которые имеют разные по производительности ядра. Когда при увеличении количества ядер подключаются энергоэффективные. Могу сказать что тестировал на EPYC7282 и скорость была примерное 1,8t/s

Тут важна скорость памяти, число каналов памяти. Ядра - у меня 2х канальную DDR4 "забивает" 4 ядра (на вывод, для наибыстрейшей обработки запросов нужно 8 ядер). Проц - i7-10700, так что не сказать, что ядра особо шустрые.
Я настроил в итоге использование 4х ядер - меньше греется и шумит.

Так что есть все шансы ускориться - если не все каналы используете, 16 ядер должно "хватить" на 8 каналов памяти.

Оно не влияет если вычислительная сложность модели никая и упирается в память. Гонял какие-то "крутые" локальные модели и больше ядер давало буст. А вот самая тупорылая LLAMA, у меня, буквально считается на 4 из 20 ядер и никакой буст от ядер не получаю.

Sign up to leave a comment.

Articles