Как стать автором
Обновить

Эффективный запуск и инференс LLM на своем сервере с нуля (часть 1)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6.9K
Всего голосов 23: ↑23 и ↓0+27
Комментарии12

Комментарии 12

Спасибо за отличную статью. Напишите, пожалуйста, ссылку на оригинальный курс.

К сожалению, в рамках статьи не могли добавить ссылку (по крайней мере в рамках песочницы), надеюсь в комментариях это не запрещено - https://learn.deeplearning.ai/courses/efficiently-serving-llms

А через контейнеры Nvidia NIM пробовали инференсить? Там ребята смогли добиться существенного прироста к перфу.

Да, командой тестируем разные фреймворки и сами в некоторые коммитим, просто в рамках этого цикла статей хочется с нуля покрыть базу. Конечно, если хочется здесь и сейчас получить максимальный прирост, стоит использовать Nvidia NIM или другие современные движки

Можете ещё указать на каком оборудовании было запущено

Macbook Apple M2 Pro 16'

Очень классно, но так мало... спасибо за адаптацию, буду рад если выйдет продолжение)

Спасибо большое! Продолжение обязательно будет :)

Подскажите, пожалуйста, если просто без кода запускать LLAMA-3-70B-Instruct-IQ2_XS в LM Studio (как понимаю это просто GUI над llama.cpp) на RTX 4090 24Gb с выгрузкой всей модель в GPU (помещается), то из коробки все известные на данный момент оптимизации применяются? Сейчас получаем около 25 токенов/сек

Честно говоря, для GPU инференса cpp фреймворк как-то не приходилось использовать, только для запуска на CPU (для чего он изначально и создавался), поэтому в деталях подсказать тут не смогу( Точно стоит проверить по их документации, включены ли у вас все доступный GPU/СUDA оптимизации, но, вероятно, другие движки смогут из коробки дать больший прирост производительности, поэтому стоит потестировать разные на вашем железе.

Огромное спасибо за статью, с нетерпением жду продолжение!)

Спасибо! Рад, что было интересно)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории