Aleksei_Goncharov8 июл 2024 в 20:58

Эффективный запуск и инференс LLM на своем сервере с нуля (часть 1)

Средний

10 мин

6.9K

Машинное обучение * Искусственный интеллектПрограммирование * Алгоритмы *

Из песочницы

+27

Комментарии 12

bessangel 8 июл 2024 в 22:11

Спасибо за отличную статью. Напишите, пожалуйста, ссылку на оригинальный курс.

Aleksei_Goncharov 9 июл 2024 в 13:05

К сожалению, в рамках статьи не могли добавить ссылку (по крайней мере в рамках песочницы), надеюсь в комментариях это не запрещено - https://learn.deeplearning.ai/courses/efficiently-serving-llms

rodion-m 9 июл 2024 в 05:56

А через контейнеры Nvidia NIM пробовали инференсить? Там ребята смогли добиться существенного прироста к перфу.

Aleksei_Goncharov 9 июл 2024 в 13:04

Да, командой тестируем разные фреймворки и сами в некоторые коммитим, просто в рамках этого цикла статей хочется с нуля покрыть базу. Конечно, если хочется здесь и сейчас получить максимальный прирост, стоит использовать Nvidia NIM или другие современные движки

yri066 9 июл 2024 в 06:55

Можете ещё указать на каком оборудовании было запущено

Aleksei_Goncharov 9 июл 2024 в 13:01

Macbook Apple M2 Pro 16'

rino000 9 июл 2024 в 13:00

Очень классно, но так мало... спасибо за адаптацию, буду рад если выйдет продолжение)

Aleksei_Goncharov 9 июл 2024 в 13:01

Спасибо большое! Продолжение обязательно будет :)

vuidji 10 июл 2024 в 11:14

Подскажите, пожалуйста, если просто без кода запускать LLAMA-3-70B-Instruct-IQ2_XS в LM Studio (как понимаю это просто GUI над llama.cpp) на RTX 4090 24Gb с выгрузкой всей модель в GPU (помещается), то из коробки все известные на данный момент оптимизации применяются? Сейчас получаем около 25 токенов/сек

Aleksei_Goncharov 10 июл 2024 в 15:39

Честно говоря, для GPU инференса cpp фреймворк как-то не приходилось использовать, только для запуска на CPU (для чего он изначально и создавался), поэтому в деталях подсказать тут не смогу( Точно стоит проверить по их документации, включены ли у вас все доступный GPU/СUDA оптимизации, но, вероятно, другие движки смогут из коробки дать больший прирост производительности, поэтому стоит потестировать разные на вашем железе.

naPME3aH 10 июл 2024 в 14:35

Огромное спасибо за статью, с нетерпением жду продолжение!)

Aleksei_Goncharov 10 июл 2024 в 14:36

Спасибо! Рад, что было интересно)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий