beeline_cloud 16 июн 2024 в 14:36

Взять и захостить собственную LLM — зачем это нужно [и нужно ли вообще]

4 мин

13K

Блог компании beeline cloudОблачные вычисления*Финансы в ITМашинное обучение*

+10

Комментарии 23

Fardeadok 16 июн 2024 в 16:44

Ой сколько воды и ноль расчетов. Видеокарта для запуска ллм стоит от 25тр и наверняка уже есть у всех кто запускает игры

vp7 16 июн 2024 в 17:13

Пытаюсь для себя разобраться в этом вопросе, и, кажется, вы не правы - многим моделям нужно минимум 12Gb, в основном рекомендация сводится к наличию 16Gb и больше.

На игровых видюхах, особенно недорогих, памяти всего 8Gb.

Вероятно, "нижняя граница входа" - 3060Ti 16Gb или 4060Ti 16Gb.

Dominux 17 июн 2024 в 00:36

На игровых видюхах, особенно недорогих, памяти всего 8Gb

Чаще всего геймеры берут карточки от AMD, из-за меньшего бюджета, а потом не могут запустить на них ничего. Поддержка ROCm ещё далека

maxcat 17 июн 2024 в 02:55

Делали бы уже все просто на compute shaders, а не на вендерлоках типа куды и иже с ними

maxcat 17 июн 2024 в 02:54

Так нвидия же сделала возможность использовать обычную ОЗУ в добавок к собственной ОЗУ GPU

Alexey2005 17 июн 2024 в 10:07

Так и большинство фреймворков для LLM умеет догружать в обычную память то, что не влезло в VRAM. Вот только скорость при этом падает катастрофически, почти до уровня расчётов на CPU.

Быстродействие LLM упирается не столько в вычислительные мощности (современные CPU тоже вполне себе шустро перемалывают матрицы), сколько в быстродействие памяти, поскольку там приходится оперировать десятками гигабайт данных.

При наличии достаточного количества оперативки (и даже без неё, если есть место под большой своп на SSD) вы можете запустить любую опубликованную LLM даже без видеокарты, и оно вполне будет работать, вот только ждать ответа для больших моделей придётся несколько минут, в худших случаях - часов.

Shannon 18 июн 2024 в 02:12

Так нвидия же сделала возможность использовать обычную ОЗУ в добавок к собственной ОЗУ GPU

Тоже очень надеялся на эту фичу, после перехода на 4090 стало понятно, что маркетинговая фича. Это не "использовать обычную ОЗУ в добавок", а это по кругу гонять память из RAM в VRAM. В итоге на практике скорость генерации падает ужасно низко, ниже чем просто на CPU запускать в разы.
Большинство кто запускает локальные llm советуют её отключить сразу, так как если даже 500мб вылезут за пределы реального VRAM, то скорость уже ощутимо падает.

В общем-то они и не обещали, что это будет работать как все подумали, это нужно было для другого, на карточках с низким объемом VRAM хоть как-то запускать cuda приложения, которые падают с cuda error memory allocation.

maxcat 18 июн 2024 в 02:14

Ну тогда ставили бы уже просто вообще всю оперативную память gddr. В игровых консолях так уже 11 лет делают

Shannon 18 июн 2024 в 02:41

Что-то похожее делают в новых маках на арм, там быстрая общая память, и те кто имеют 192гб этой памяти, внезапно открыли для себя возможность запускать большие модели на хорошей скорости.

Shannon 18 июн 2024 в 02:23

Вероятно, "нижняя граница входа" - 3060Ti 16Gb или 4060Ti 16Gb.

llama3 8B с квантованием Q5_K_M даже на процессоре с ddr4 выдает 5 t/s (на быстрых ddr5 будет ещё быстрее). Это не так быстро, но с этим уже можно работать в реальном времени.

Пытаюсь для себя разобраться в этом вопросе, и, кажется, вы не правы - многим моделям нужно минимум 12Gb, в основном рекомендация сводится к наличию 16Gb и больше.

Если речь про LLM, то локально обычно запускают gguf, там можно выгрузить часть слоев на сколько хватит видеопамяти, а остальное будет крутиться на проце.
Для видеокарт AMD есть https://github.com/YellowRoseCx/koboldcpp-rocm где благодаря ZLUDA ускорение на Windows уже работает даже на rx 6600/6700.

Если речь про генерацию картинок, то там есть опция --medvram и --lowvram, которые позволяют запускать генерацию с нормальной скоростью даже на 4гб видеокартах.

Поэтому типичных 8гб видеокарт (даже AMD) достаточно для входа.

SamCode 18 июн 2024 в 07:31

del

Mortello 18 июн 2024 в 14:47

Нижняя граница зависит от потребностей в первую очередь. примерно 1.3 от размера необходимых весов + немного на контекстное окно. На 3060 6 Гб запускал квантованные веса для автокомплита кода, работает достаточно шустро

dmitrykabanov 16 июн 2024 в 17:15

Вы о каком юзкейсе говорите? Из расчетов я бы посмотрел на реальный опыт крупных именно организаций, либо научных центров. Не уверен, что таблички из воздуха с непонятными прикладными перспективами вообще нужны, но внутренними расходами и проч. инфой такого плана мало кто готов делиться, что объяснимо достаточно

vikarti 17 июн 2024 в 13:17

За 25 тр будет что-то с 12 гб в лучшем случае. 8-10B модели получится запустить

Совсем не зря люди городят компы с несколькими 3090(потому что 24Gb VRAM а на батчинг для дома - плевать а значит производительность карты не очень важна) с авито. Или там решения вроде топовых маков или б/у серверов со всеми слотами памяти. Все ради того чтобы иметь хоть немного быстрой памяти раз уж nvidia не хочет делать для дома карточки с больше чем 24 Gb VRAM.

Хочется то как бы не 10B запускать, а модельки вроде Goliath 120B

Другое дело что если нам надо те самые 10к запросов в день - проще уж сервер арендовать где то в облаке и есть куча решений под такие задачи (с вас только докер-образ и настройки автоскейлинга)

Shannon 18 июн 2024 в 02:39

б/у серверов со всеми слотами памяти

Хочется то как бы не 10B запускать, а модельки вроде Goliath 120B

Для внезапно заинтересовавшихся, как такое собрать с али и сколько это стоит.
Нужна материнка на x99 с двумя xeon 2690 v4, поддерживающая память ddr-2400. Процы стоят что-то около ~3500р и поддерживают avx2. Материнка стоит 15к, можно найти с 3 nvme и 8 слотами под память.

Это будет работать в 8 канальном режиме памяти выдавая скорость в 100-110 GB/s (выше топовой DDR5). Комплект памяти на 512гб плашками по 64гб обойдется в 65к.
В итоге за ~85к можно получить ПК который будет запускать и голиафы на 120B, и даже новую модель от Nvidia на 340B.

Есть отзывы тех, кто такое собирал, и это сильно ускоряло их локальное обучение моделей для своих нужд. А если пойти ещё дальше и взять проявляющие на алиэкспрессе дешевые эпики и теряющие в цене материнки, то там будет 16 канальный режим памяти и скорость уже почти равная 4060 ti.

Но такое никому не советую, если что.

vikarti 18 июн 2024 в 12:58

Это будет работать в 8 канальном режиме памяти выдавая скорость в 100-110 GB/s (выше топовой DDR5).

К сожалению есть ньюансы.

У меня есть похожая машинка (для других целей бралось и контроллер максимум в 4-х канальном режиме для каждого из сокетов работает).

2 сокета это привет NUMA и обмен через QPI

но правда сейчас вот запускаю тест на загруженной задачами и со снятой 8-й планкой памяти машине - 65-80 GB/s.

вот только хочется для хоть какой то интерактивности - то хотя бы где то около 5 t/s, а не 0.5 t/s

А эпики - ну вообщем нечто это имелось ввиду под б/у серверами

Moog_Prodigy 16 июн 2024 в 16:50

Хостинг у себя подобных штук требует значительных затрат на старте. Но затем вы платите только за электричество. Ии появился в не очень подходящее время: политические дрязги, закручивание гаек, возможность отключить что угодно по желанию левой пятки хостера (что мы сейчас наблюдаем то тут, то там), и наконец - цензура. Хоть она и запрещена во многих странах, это легко подается под соусом защиты прав людей и прочего такого, но по сути эти действия по "оглуплению" моделей являются ничем иным как цензурой. Скоро дойдем до того, что локальный лама-X на CPU и со скоростью в один токен в секунду, является по качеству ответов более приемлемым, чем хваленый GPT-(X+1).

По итоге получаем некий обрубок Ии, с кучей заглушек, и тот у тебя в любое время могут отнять. И что с ним делать, если он условно говоря, внутри себя супер умный академик, но с кляпом во рту он может говорить только "да" или "нет", и то не всегда. Зачем он тогда такой нужен?

Про приколы облаков я думаю за последние дни многие наслышаны, хотя об этом предупреждали еще пару десятков лет назад.

janvarev 16 июн 2024 в 17:08

По оценкам экспертов, для self-hosted модели, обрабатывающий порядка 10 тыс. запросов ежедневно, потребуется бюджет в размере 40–60 тыс. долларов в месяц.

Ох уж эти эксперты.

Файнтюн LLama8B (например, Сайга) влезает в видеокарту 16-24 Гб (ну, положим на 8бит квантизации)

Стоимость аренды сервера с такой видеокартой - 50-100 тысяч в месяц в зависимости от того, где найдете.

10000 запросов ежедневно = 416 запросов в час = 7 запросов в минуту. Даже на одном сервере можно обработать, ну в крайнем случае на двух.

turbotankist 16 июн 2024 в 21:49

Последнее пункт ошибочен - 7 запросов за минуту с достаточно большим контекстом запроса и ответа видеокарта не вытянет - 4090 примерно 80-100 токенов в секунду генерит, на объемный ответ секунд 10. Ну и типичное распределение - из10000 запросов в день 5000 будут за 2 самых нагруженных часа

Devastor87 16 июн 2024 в 17:09

Вот вам ещё один вариант (раз сами не догадались): обученную модель хранить локально, запускать локально, а дообучать через облачные сервисы, предоставляющие мощности в аренду.

Практичнее, дешевле, быстрее, в общем, лучше во всех направления.

vitaly_il1 16 июн 2024 в 18:42

"По оценкам экспертов, для self-hosted модели, обрабатывающий порядка 10 тыс. запросов ежедневно, потребуется бюджет в размере 40–60 тыс. долларов в месяц. Эта сумма включает стоимость закупки и дальнейшей поддержки оборудования для сбора данных, а также наём специалистов."
Очень странные цифры.
Плюс зачем "дальнейшей поддержки оборудования для сбора данных"?

Moog_Prodigy 16 июн 2024 в 21:47

Наверное всякое оборудование типа ТСПУ в пользу любой из сторон (в том числе и третьей).

Sabin 17 июн 2024 в 11:39

Поделитесь своим опытом дообучения моделей, в первую очередь про подготовку датасета. Размечаете ли Вы как-то его, по какому принципу отбираете, как понимаете, что модель переобучена или наоборот нужно ещё продолжать? И про техническую часть, Вы говорите про LoRA или другие способы, сколько видеопамяти на это требуется, сколько шагов обычно длится обучение?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий