Aleksei_Goncharov Jul 8 2024 at 20:58

Эффективный запуск и инференс LLM на своем сервере с нуля (часть 1)

Medium

10 min

9.6K

Machine learning * Artificial IntelligenceProgramming * Algorithms *

From sandbox

+27

Comments 12

bessangel Jul 8 2024 at 22:11

Спасибо за отличную статью. Напишите, пожалуйста, ссылку на оригинальный курс.

Aleksei_Goncharov Jul 9 2024 at 13:05

К сожалению, в рамках статьи не могли добавить ссылку (по крайней мере в рамках песочницы), надеюсь в комментариях это не запрещено - https://learn.deeplearning.ai/courses/efficiently-serving-llms

rodion-m Jul 9 2024 at 05:56

А через контейнеры Nvidia NIM пробовали инференсить? Там ребята смогли добиться существенного прироста к перфу.

Aleksei_Goncharov Jul 9 2024 at 13:04

Да, командой тестируем разные фреймворки и сами в некоторые коммитим, просто в рамках этого цикла статей хочется с нуля покрыть базу. Конечно, если хочется здесь и сейчас получить максимальный прирост, стоит использовать Nvidia NIM или другие современные движки

yri066 Jul 9 2024 at 06:55

Можете ещё указать на каком оборудовании было запущено

Aleksei_Goncharov Jul 9 2024 at 13:01

Macbook Apple M2 Pro 16'

rino000 Jul 9 2024 at 13:00

Очень классно, но так мало... спасибо за адаптацию, буду рад если выйдет продолжение)

Aleksei_Goncharov Jul 9 2024 at 13:01

Спасибо большое! Продолжение обязательно будет :)

vuidji Jul 10 2024 at 11:14

Подскажите, пожалуйста, если просто без кода запускать LLAMA-3-70B-Instruct-IQ2_XS в LM Studio (как понимаю это просто GUI над llama.cpp) на RTX 4090 24Gb с выгрузкой всей модель в GPU (помещается), то из коробки все известные на данный момент оптимизации применяются? Сейчас получаем около 25 токенов/сек

Aleksei_Goncharov Jul 10 2024 at 15:39

Честно говоря, для GPU инференса cpp фреймворк как-то не приходилось использовать, только для запуска на CPU (для чего он изначально и создавался), поэтому в деталях подсказать тут не смогу( Точно стоит проверить по их документации, включены ли у вас все доступный GPU/СUDA оптимизации, но, вероятно, другие движки смогут из коробки дать больший прирост производительности, поэтому стоит потестировать разные на вашем железе.

naPME3aH Jul 10 2024 at 14:35

Огромное спасибо за статью, с нетерпением жду продолжение!)

Aleksei_Goncharov Jul 10 2024 at 14:36

Спасибо! Рад, что было интересно)