Большое спасибо за такой подробный ответ. Ktransformers видел, выглядит очень перспективно, лишь одна 3090 даёт speedup в разы! Правда, они пишут, что используется оптимизация через AMX-инструкции в CPU, которые в EPYC-ах присутствуют с 5-го поколения, а это совершенно другие деньги за базовое железо. Но хотелось бы, конечно, иметь возможность использовать большие контексты, даже 4096 токенов - мизер для работы с нормальными кодовыми базами.
Вы явно в теме :) Могу спросить совета? Хочу собрать машину для локального запуска 671b с квантованием 4 или 8. Прикинул, оптимальным по соотношению цена/качество видится 64-ядерный EPYC 3-го поколения c 16-ю плашками 3200-й 64Gb памяти, это даёт bandwidth ~200Gb/sec и стоит в районе $3k. Норм вариант для неприхотливого использования для личных нужд?
Спасибо, что поделились, очень интересно! https://digitalspaceport.com/ Вот здесь энтузиаст рассказывает, как добился скорости генерации 3.5-4.25 tps на Q4 671b при схожих характеристиках железа. Однако, в его сетапе используется один 8-канальный EPYC. Подозреваю, что пропускная способность вашей памяти размазана по двум CPU, и это таки замедляет процесс инференса.
Очень не хватает мета-мессенджера, который бы объединил все эти бесконечные телеграммы, вайберы, скайпы, аськи, лайны, вотсапы и т.д. и т.п., да на какой-нибудь крипто-п2п платформе со своим функционалом, куда, возможно, впоследствие все бы и мигрировало.
Большое спасибо за такой подробный ответ. Ktransformers видел, выглядит очень перспективно, лишь одна 3090 даёт speedup в разы! Правда, они пишут, что используется оптимизация через AMX-инструкции в CPU, которые в EPYC-ах присутствуют с 5-го поколения, а это совершенно другие деньги за базовое железо. Но хотелось бы, конечно, иметь возможность использовать большие контексты, даже 4096 токенов - мизер для работы с нормальными кодовыми базами.
Вы явно в теме :) Могу спросить совета? Хочу собрать машину для локального запуска 671b с квантованием 4 или 8. Прикинул, оптимальным по соотношению цена/качество видится 64-ядерный EPYC 3-го поколения c 16-ю плашками 3200-й 64Gb памяти, это даёт bandwidth ~200Gb/sec и стоит в районе $3k. Норм вариант для неприхотливого использования для личных нужд?
Спасибо, что поделились, очень интересно!
https://digitalspaceport.com/ Вот здесь энтузиаст рассказывает, как добился скорости генерации 3.5-4.25 tps на Q4 671b при схожих характеристиках железа. Однако, в его сетапе используется один 8-канальный EPYC. Подозреваю, что пропускная способность вашей памяти размазана по двум CPU, и это таки замедляет процесс инференса.