На доступной мне машине есть еще 3 Tesla T4, в которых полностью умещается Coder-30B. Интересный возникает четвертый сценарий в дополнение к Вашему, толстая MoE только на CPU и драфтовая полегче на GPU.
Сервера в аренду с двумя процессорами AMD epyc и большим объемом памяти, чтобы запускать такие LLM. Точная конфигурация и ее стоимость приведены в статье в разделе "Как собрать Inference-сервер на CPU"->"Как собрать конфигурацию"
Выше также комментировали (не Вы, а SlavikF) некие 200 гигабайт и 30 гигабайт, не понимаю откуда числа. Но давайте просто проверим теоретические расчеты тестами, какая пропускная способность будет на Epyc 4 поколения:
Что получили - 700 гигабайт в секунду на оба сокета, 340 на один, 147 в одну сторону между numa 0-1 и 147 в другую между numa 1-0.
Итого: каждый процессор в numa interleaving может получать до 340 гигабайт в секунду в сумме (своя память + память соседа по numa), а оба примерно 700 гигабайт.
На доступной мне машине есть еще 3 Tesla T4, в которых полностью умещается Coder-30B. Интересный возникает четвертый сценарий в дополнение к Вашему, толстая MoE только на CPU и драфтовая полегче на GPU.
Сервера в аренду с двумя процессорами AMD epyc и большим объемом памяти, чтобы запускать такие LLM. Точная конфигурация и ее стоимость приведены в статье в разделе "Как собрать Inference-сервер на CPU"->"Как собрать конфигурацию"
Резонно. Вот результаты из которых сделаны графики https://gist.github.com/nsforth/e4457bd4749c98eb28f980c67a870618
model-draft не проверял, ранее в других тестах не получал заметную разницу, поэтому не включал в тесты в этот раз.
Машину я вернул с тестов, есть под рукой односокетная с AMD EPYC 9754 128-Core Processor, могу на ней попробовать с draft и без.
Каждый xGMI это 16 линий pcie 5.0, только с другим протоколом, но скорость та же.
Получается 64 линии по 32 гигабита, при стандартной конфигурации 4 линка xGMI.
Это теоретически до 2048 гигабит в каждую сторону (256 гигабайт/с), двусторонний линк 512 гигабайт/с. Об этом написано в вашей же ссылке ниже в разделе Theoretical value analysis https://lenovopress.lenovo.com/lp1852-configuring-amd-xgmi-links-on-thinksystem-sr665-v3#theoretical-value-analysis
Также рекомендую прочитать https://www.amd.com/content/dam/amd/en/documents/products/epyc/4th-gen-epyc-processor-architecture-white-paper.pdf
там архитектура Infinity Fabric более-менее понятно расписана и тоже приводятся теоретические показатели пропускной способности.
Выше также комментировали (не Вы, а SlavikF) некие 200 гигабайт и 30 гигабайт, не понимаю откуда числа. Но давайте просто проверим теоретические расчеты тестами, какая пропускная способность будет на Epyc 4 поколения:
https://gist.github.com/nsforth/50e87a9769dba93f897e194459857e24
Что получили - 700 гигабайт в секунду на оба сокета, 340 на один, 147 в одну сторону между numa 0-1 и 147 в другую между numa 1-0.
Итого: каждый процессор в numa interleaving может получать до 340 гигабайт в секунду в сумме (своя память + память соседа по numa), а оба примерно 700 гигабайт.