Comments 23
Ой сколько воды и ноль расчетов. Видеокарта для запуска ллм стоит от 25тр и наверняка уже есть у всех кто запускает игры
Пытаюсь для себя разобраться в этом вопросе, и, кажется, вы не правы - многим моделям нужно минимум 12Gb, в основном рекомендация сводится к наличию 16Gb и больше.
На игровых видюхах, особенно недорогих, памяти всего 8Gb.
Вероятно, "нижняя граница входа" - 3060Ti 16Gb или 4060Ti 16Gb.
На игровых видюхах, особенно недорогих, памяти всего 8Gb
Чаще всего геймеры берут карточки от AMD, из-за меньшего бюджета, а потом не могут запустить на них ничего. Поддержка ROCm ещё далека
Так нвидия же сделала возможность использовать обычную ОЗУ в добавок к собственной ОЗУ GPU
Так и большинство фреймворков для LLM умеет догружать в обычную память то, что не влезло в VRAM. Вот только скорость при этом падает катастрофически, почти до уровня расчётов на CPU.
Быстродействие LLM упирается не столько в вычислительные мощности (современные CPU тоже вполне себе шустро перемалывают матрицы), сколько в быстродействие памяти, поскольку там приходится оперировать десятками гигабайт данных.
При наличии достаточного количества оперативки (и даже без неё, если есть место под большой своп на SSD) вы можете запустить любую опубликованную LLM даже без видеокарты, и оно вполне будет работать, вот только ждать ответа для больших моделей придётся несколько минут, в худших случаях - часов.
Так нвидия же сделала возможность использовать обычную ОЗУ в добавок к собственной ОЗУ GPU
Тоже очень надеялся на эту фичу, после перехода на 4090 стало понятно, что маркетинговая фича. Это не "использовать обычную ОЗУ в добавок", а это по кругу гонять память из RAM в VRAM. В итоге на практике скорость генерации падает ужасно низко, ниже чем просто на CPU запускать в разы.
Большинство кто запускает локальные llm советуют её отключить сразу, так как если даже 500мб вылезут за пределы реального VRAM, то скорость уже ощутимо падает.
В общем-то они и не обещали, что это будет работать как все подумали, это нужно было для другого, на карточках с низким объемом VRAM хоть как-то запускать cuda приложения, которые падают с cuda error memory allocation.
Вероятно, "нижняя граница входа" - 3060Ti 16Gb или 4060Ti 16Gb.
llama3 8B с квантованием Q5_K_M даже на процессоре с ddr4 выдает 5 t/s (на быстрых ddr5 будет ещё быстрее). Это не так быстро, но с этим уже можно работать в реальном времени.
Пытаюсь для себя разобраться в этом вопросе, и, кажется, вы не правы - многим моделям нужно минимум 12Gb, в основном рекомендация сводится к наличию 16Gb и больше.
Если речь про LLM, то локально обычно запускают gguf, там можно выгрузить часть слоев на сколько хватит видеопамяти, а остальное будет крутиться на проце.
Для видеокарт AMD есть https://github.com/YellowRoseCx/koboldcpp-rocm где благодаря ZLUDA ускорение на Windows уже работает даже на rx 6600/6700.
Если речь про генерацию картинок, то там есть опция --medvram и --lowvram, которые позволяют запускать генерацию с нормальной скоростью даже на 4гб видеокартах.
Поэтому типичных 8гб видеокарт (даже AMD) достаточно для входа.
del
Нижняя граница зависит от потребностей в первую очередь. примерно 1.3 от размера необходимых весов + немного на контекстное окно. На 3060 6 Гб запускал квантованные веса для автокомплита кода, работает достаточно шустро
Вы о каком юзкейсе говорите? Из расчетов я бы посмотрел на реальный опыт крупных именно организаций, либо научных центров. Не уверен, что таблички из воздуха с непонятными прикладными перспективами вообще нужны, но внутренними расходами и проч. инфой такого плана мало кто готов делиться, что объяснимо достаточно
За 25 тр будет что-то с 12 гб в лучшем случае. 8-10B модели получится запустить
Совсем не зря люди городят компы с несколькими 3090(потому что 24Gb VRAM а на батчинг для дома - плевать а значит производительность карты не очень важна) с авито. Или там решения вроде топовых маков или б/у серверов со всеми слотами памяти. Все ради того чтобы иметь хоть немного быстрой памяти раз уж nvidia не хочет делать для дома карточки с больше чем 24 Gb VRAM.
Хочется то как бы не 10B запускать, а модельки вроде Goliath 120B
Другое дело что если нам надо те самые 10к запросов в день - проще уж сервер арендовать где то в облаке и есть куча решений под такие задачи (с вас только докер-образ и настройки автоскейлинга)
б/у серверов со всеми слотами памяти
Хочется то как бы не 10B запускать, а модельки вроде Goliath 120B
Для внезапно заинтересовавшихся, как такое собрать с али и сколько это стоит.
Нужна материнка на x99 с двумя xeon 2690 v4, поддерживающая память ddr-2400. Процы стоят что-то около ~3500р и поддерживают avx2. Материнка стоит 15к, можно найти с 3 nvme и 8 слотами под память.
Это будет работать в 8 канальном режиме памяти выдавая скорость в 100-110 GB/s (выше топовой DDR5). Комплект памяти на 512гб плашками по 64гб обойдется в 65к.
В итоге за ~85к можно получить ПК который будет запускать и голиафы на 120B, и даже новую модель от Nvidia на 340B.
Есть отзывы тех, кто такое собирал, и это сильно ускоряло их локальное обучение моделей для своих нужд. А если пойти ещё дальше и взять проявляющие на алиэкспрессе дешевые эпики и теряющие в цене материнки, то там будет 16 канальный режим памяти и скорость уже почти равная 4060 ti.
Но такое никому не советую, если что.
Это будет работать в 8 канальном режиме памяти выдавая скорость в 100-110 GB/s (выше топовой DDR5).
К сожалению есть ньюансы.
У меня есть похожая машинка (для других целей бралось и контроллер максимум в 4-х канальном режиме для каждого из сокетов работает).
2 сокета это привет NUMA и обмен через QPI
но правда сейчас вот запускаю тест на загруженной задачами и со снятой 8-й планкой памяти машине - 65-80 GB/s.
вот только хочется для хоть какой то интерактивности - то хотя бы где то около 5 t/s, а не 0.5 t/s
А эпики - ну вообщем нечто это имелось ввиду под б/у серверами
Хостинг у себя подобных штук требует значительных затрат на старте. Но затем вы платите только за электричество. Ии появился в не очень подходящее время: политические дрязги, закручивание гаек, возможность отключить что угодно по желанию левой пятки хостера (что мы сейчас наблюдаем то тут, то там), и наконец - цензура. Хоть она и запрещена во многих странах, это легко подается под соусом защиты прав людей и прочего такого, но по сути эти действия по "оглуплению" моделей являются ничем иным как цензурой. Скоро дойдем до того, что локальный лама-X на CPU и со скоростью в один токен в секунду, является по качеству ответов более приемлемым, чем хваленый GPT-(X+1).
По итоге получаем некий обрубок Ии, с кучей заглушек, и тот у тебя в любое время могут отнять. И что с ним делать, если он условно говоря, внутри себя супер умный академик, но с кляпом во рту он может говорить только "да" или "нет", и то не всегда. Зачем он тогда такой нужен?
Про приколы облаков я думаю за последние дни многие наслышаны, хотя об этом предупреждали еще пару десятков лет назад.
По оценкам экспертов, для self-hosted модели, обрабатывающий порядка 10 тыс. запросов ежедневно, потребуется бюджет в размере 40–60 тыс. долларов в месяц.
Ох уж эти эксперты.
Файнтюн LLama8B (например, Сайга) влезает в видеокарту 16-24 Гб (ну, положим на 8бит квантизации)
Стоимость аренды сервера с такой видеокартой - 50-100 тысяч в месяц в зависимости от того, где найдете.
10000 запросов ежедневно = 416 запросов в час = 7 запросов в минуту. Даже на одном сервере можно обработать, ну в крайнем случае на двух.
Вот вам ещё один вариант (раз сами не догадались): обученную модель хранить локально, запускать локально, а дообучать через облачные сервисы, предоставляющие мощности в аренду.
Практичнее, дешевле, быстрее, в общем, лучше во всех направления.
"По оценкам экспертов, для self-hosted модели, обрабатывающий порядка 10 тыс. запросов ежедневно, потребуется бюджет в размере 40–60 тыс. долларов в месяц. Эта сумма включает стоимость закупки и дальнейшей поддержки оборудования для сбора данных, а также наём специалистов."
Очень странные цифры.
Плюс зачем "дальнейшей поддержки оборудования для сбора данных"?
Поделитесь своим опытом дообучения моделей, в первую очередь про подготовку датасета. Размечаете ли Вы как-то его, по какому принципу отбираете, как понимаете, что модель переобучена или наоборот нужно ещё продолжать? И про техническую часть, Вы говорите про LoRA или другие способы, сколько видеопамяти на это требуется, сколько шагов обычно длится обучение?
Взять и захостить собственную LLM — зачем это нужно [и нужно ли вообще]