Комментарии 12
Спасибо за отличную статью. Напишите, пожалуйста, ссылку на оригинальный курс.
К сожалению, в рамках статьи не могли добавить ссылку (по крайней мере в рамках песочницы), надеюсь в комментариях это не запрещено - https://learn.deeplearning.ai/courses/efficiently-serving-llms
А через контейнеры Nvidia NIM пробовали инференсить? Там ребята смогли добиться существенного прироста к перфу.
Можете ещё указать на каком оборудовании было запущено
Очень классно, но так мало... спасибо за адаптацию, буду рад если выйдет продолжение)
Подскажите, пожалуйста, если просто без кода запускать LLAMA-3-70B-Instruct-IQ2_XS в LM Studio (как понимаю это просто GUI над llama.cpp) на RTX 4090 24Gb с выгрузкой всей модель в GPU (помещается), то из коробки все известные на данный момент оптимизации применяются? Сейчас получаем около 25 токенов/сек
Честно говоря, для GPU инференса cpp фреймворк как-то не приходилось использовать, только для запуска на CPU (для чего он изначально и создавался), поэтому в деталях подсказать тут не смогу( Точно стоит проверить по их документации, включены ли у вас все доступный GPU/СUDA оптимизации, но, вероятно, другие движки смогут из коробки дать больший прирост производительности, поэтому стоит потестировать разные на вашем железе.
Огромное спасибо за статью, с нетерпением жду продолжение!)
Эффективный запуск и инференс LLM на своем сервере с нуля (часть 1)