Search
Write a publication
Pull to refresh

Comments 12

Спасибо за отличную статью. Напишите, пожалуйста, ссылку на оригинальный курс.

А через контейнеры Nvidia NIM пробовали инференсить? Там ребята смогли добиться существенного прироста к перфу.

Да, командой тестируем разные фреймворки и сами в некоторые коммитим, просто в рамках этого цикла статей хочется с нуля покрыть базу. Конечно, если хочется здесь и сейчас получить максимальный прирост, стоит использовать Nvidia NIM или другие современные движки

Можете ещё указать на каком оборудовании было запущено

Очень классно, но так мало... спасибо за адаптацию, буду рад если выйдет продолжение)

Подскажите, пожалуйста, если просто без кода запускать LLAMA-3-70B-Instruct-IQ2_XS в LM Studio (как понимаю это просто GUI над llama.cpp) на RTX 4090 24Gb с выгрузкой всей модель в GPU (помещается), то из коробки все известные на данный момент оптимизации применяются? Сейчас получаем около 25 токенов/сек

Честно говоря, для GPU инференса cpp фреймворк как-то не приходилось использовать, только для запуска на CPU (для чего он изначально и создавался), поэтому в деталях подсказать тут не смогу( Точно стоит проверить по их документации, включены ли у вас все доступный GPU/СUDA оптимизации, но, вероятно, другие движки смогут из коробки дать больший прирост производительности, поэтому стоит потестировать разные на вашем железе.

Огромное спасибо за статью, с нетерпением жду продолжение!)

Sign up to leave a comment.

Articles