Pull to refresh

Comments 10

Спасибо за статью, хотелось бы ещё услышать что за процессор. И насколько это полезно/быстро в реальных задачах - просто, как мне кажется, лучше будет обратиться к облачным моделям. (Могу ошибаться)

Процессор i7-12700, обычный, не "К", 12 ядер, но нормальных (не "efficient") всего 8. Работает откровенно небыстро, больше для экспериментов, так сказать, базовый сетап. Переводил по 5-10-15 страниц технического текста за раз 10-30 минут. После трёх-четырёх раз выпадал в ошибку, приходилось перезапускать модель (Qwen3-30b-a3b-instruct с сжатием Q4_K_S). Точно не засекал, просто запускал и уходил. Опять же - очень много времени уходит на первый этап, разбор промпта и старт. Просто чат в течение минуты начинает отвечать. Обычно советуют небольшие модели для конкретных задач, но я серьёзно не изучал. Есть эксперименты с кодингом, https://habr.com/ru/articles/1024884/ но на Мак Про с 48 Gb unified памяти (она и для процессора и для видео), поэтому надо делить скорость в несколько раз. По-видимому, надо раскошеливаться на видеокарту (

а лучше не про процессор, а про практику проброса GPU с одного компа на другой... было бы интересно почитать

А так "можно"? В плане использования именно для запуcка LLM данная затея на мой взгляд абсолютно бессмысленная , ибо даже внутренних скоростей шины PCI порой слишком мало, а уж использование любых сетевых протоколов априори будет медленней на порядки, что сводит профит к нулю

Можно. И даже пара продуктов для этого попадалась. Интересна именно практика такого использования, а не теоретическая возможность :)

На счёт скорости....

Спорный вопрос на самом деле - заливание частей модели в видеопамять (или даже её целиком туда) - не настолько частое занятие. А потому, если не менять модели постоянно, а работать с одной и той же - есть шанс, что это будет хоть и медленнее локально подключенных видеокарт, но быстрее, чем на CPU.

А видеокарт этих "по сети" можно подключить как бы не больше, чем физически в корпус напихать (по крайней мере, без использования бифуркации, когда карт можно подключить очень много, но вплоть до 1х скорости - который уже сопоставимы со скоростью сети - с PCI-e 3.0 точно, PCI-e 4.0 - всего раза в два быстрее 10Gbps сети).

Там о другом речь - проброс гипервизором с хоста в ВМ.

Но "вообще" этот цикл статей интересен в другом плане - там используют vLLM сотоварищи для распределения нагрузки от модели не только по видеокартам, но и по узлам (серверам), и кажется даже параллельно запросы обрабатывать на получившемся кластере.

Это несколько более сложная задача, чем имел в виду я... Но, в принципе, вариант интересный, хотя и именно для LLM, но не stable diffusion.

Я имел в виду более простой случай в духе GPUoverIP типа https://github.com/kevmo314/scuda или https://www.juicelabs.co/ . Скажем, есть сервер с много RAM (скажем, от 256GB), но куда трудно напихать GPU, и есть ящик(и) попроще (вплоть до десктопной начинки), но достаточного размера и количества, чтобы них напихать GPU. А потом пробросить GPU в сервер, где много RAM и запустить тяжелую модель с шардированием её части на GPU (несколько GPU), части - на RAM.

В принципе, та же LM Studio умеет (как-то) распределять модель между доступными GPU и RAM, но локальными GPU, разумеется.

Но, возможно, описанный в указанном вами цикле статей путь перспективнее, несмотря на сложность...

Сеть не потянет. В lama-ccp реализовано механизм разделения модели на слои. Иначе говоря разделяешь модель на разные хосты. Так ещё можно. Для маков покупается внешняя видеокарта и через thunderbolt отапливает помещение до приятной температуры. )))

Про тандерболт тоже где-то попадалось на Хабре, припоминаю...

На счёт разделения на слои... Судя по вот этой статье https://habr.com/ru/articles/921540/ - у MoE моделей можно часть слоёв выгрузить в GPU, тензоры внимания других слоёв - тоже в GPU, а тензоры экспертов - в CPU.

Да и LM Studio позволяет задавать конкретное число слоёв, выгружаемых на GPU.

Разве это принципиально отличается от того, как модель запускают на разных хостах?

В LMSudio появилась функция управления удаленным сервером. Там документации, в systemd пишеш автостарт сервера и из своего Виндоус через тотже интерфейс управляешь. Виндоус маст дай)

Sign up to leave a comment.

Articles