Pull to refresh
26
0.2
Славик Фурсов@SlavikF

Developer

Send message

Тут надо разобраться - это выгрузка слоёв на GPU ускоряет?

Потому что llama.cpp в первую очередь выгружает на GPU работу KV cache и обработку промпта. В этом случае даже если сами слои вообще не выгружать на GPU - уже может быть раза в два быстрее.

У меня используется где-то 43GB VRAM.

Я сильно много не экспериментировал, но думаю, что для моделей размером 120-350 ГБ особой разницы в скорости между 24GB и 48GB VRAM не будет. А вот разница между нет GPU и есть 24GB VRAM - большая.

Да, вот эта скорость выше - это с частичной выгрузкой слоёв. Вот мои параметры:

--ctx-size 16384

--cache-type-k q8_0 --cache-type-v q8_0

--flash-attn

--threads 16

--n-gpu-layers 999

--override-tensor '([3-8]+).ffn_.*_exps.=CPU'

Выгрузка слоёв на GPU делает скорость чуть быстрее, но не сильно. GPU очень круто ускоряет процессинг промпта, и работу с KV cache. Сама инференция по большей части упирается в RAM.

DeepSeek-R1-0528 или, если не нужны рассуждения, на DeepSeek-V3-0324

Да, скорость генерации токенов примерно одинакова. Только вот для R1 надо ждать минут 10 пока она "думает", а V3 отвечает сразу и неплохо.

"--prio", "3"

Интересно, зачем этот флаг? Бывает на сервере запущено ещё пара сервисов, а запуск инференции с этим параметром "душит" всё остальное на сервере, при этом скорость генерации практически не увеличивается.

Мой опыт:

Моя система:

  • Intel Xeon Gold 5218 (16 ядер, 32 threads),

  • 6 каналов памяти * 64GB DDR4-2666

  • RTX 4090D 48GB VRAM (китайский мод)

Использую две модели:

  • DeepSeek-V3-0324-UD-Q2_K_XL (250GB), 6.3 tokens / sec

  • Qwen3-235B-A22B-128K-UD-Q4_K_XL (125GB), 7.7 tokens / sec

Классная фишка у моделей Qwen3 - модель можно запустить один раз, а уже для каждого запроса решать - нужен простой ответ быстро? или нужно думать (thinking) долго?

Сейчас вот удалось на Ebay "словить" вариант компьютера с Intel Xeon W5-3425 всего за $1000. Правда память надо будет докупать. Надеюсь будет значительно быстрей, потому что у этих Xeon добавили технологию AMX, которая ускоряет инференцию, и есть 8 каналов DDR5-4800 памяти. DDR5 память правда раза в 3-4 дороже чем DDR4.

Интересный опыт.

У Гитлаба есть способ запускать раннеры к Кубернетес кластере - и таким образом масштабироваться за счёт Кубернетеса. Я у себе в домашней лаборатории так настроил. Понятно, что масштабы у меня меньше, но вот такой вариант тоже есть.

из того что я читал про AMD у которых 12 каналов памяти - организованны они как-то хитро, так что не у всех ядер есть доступ ко всем каналам памяти. Что-то там с CCD.

У Интела процессоры Xeon 4-го поколения - честные 8 каналов и есть технология AMX, которая очень ускоряет инференцию. Смотрю сейчас себе взять систему с Xeon W9-3495X

Подтверждаю. У меня Intel Xeon Gold 5218 + 12 модулей памяти по 64GB DDR4-2666. И карточка RTX 3090.

Работает, на прошлой версии получалось почти 3 токена в секунду. А если контекст большой - то ещё медленней. Эту версию ещё не пробовал.

На такой скорости ещё можно набраться терпения для DeepSeek V3. Но вот "размышления (thinking)" R1 ждать что-то очень долго... Ответ может идти минут 10+. Хотя я тут недавно прочитал, что можно запустить DeepSeek R1 в режиме без размышлений. Надо будет попробовать.

Ещё тут экспериментировал с разными настройками тензоров, и для модели qwen3:235b квантизированной в q4_K_M (142 GB) у меня получается около 7 токенов секунду.

Это не столько о том, что стёрли логи, а ещё про сценарий когда потеряли доступ к серверу. Заблокировали пользователя.

Или когда диск сдох. То в отправленных логах ещё бывает можно что-то увидеть, а вот на сам сервер зайти бывает уже не получается.

Довольно "хакерский" проект.

На Github перечислены некоторые ограничения, - например то, что работа Nerdlog нагружает серверы на которых запущены сервисы.

Я бы добавил ещё одно ограничение: если сервер взломали, то с Nerdlog я логи посмотреть не смогу. А вот если логи собирались на Elastic / Splunk / ... - то логи того, как лезут на сервер у меня останутся.

Для полноты картины, наверное стоило бы упомянуть про finalizers.

Не знаю, если это именно "жизненный цикл", но нередко именно finalizers не дают поду умереть...

Да, называются TTS. Но большинство поддерживает ограниченный набор языков.

Вот тут открытая модель с поддержкой русского:

https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B

https://github.com/edwko/OuteTTS

Базовое решение Ceph — очень популярное, мощное и надёжное распределённое хранилище.

... В целом нет ничего хуже, чем развал кластера. В этой ситуации придётся долго и весело танцевать с бубном, если у вас не настроены итеративные бэкапы.

Ceph - это всегда танцы с бубном. Даже если настроены бэкапы

Что-то колбасит их там неслабо так...

Я видел комментарий, что у OpenAI модель 4.1 тренировалась на данных середины 2024.

А вот Gemini 2.5 - начало 2025.

Это может быть критично для проектов, в которых новые версии выходят чуть ли не каждую неделю.

И сколько человек работает для IT-поддержки всей этой системы?

Если без квантизации - то нужно грузить все 700.

В GPU или в RAM - куда есть туда и грузить. Понятно, что GPU работает раз в 10 быстрее, но у кого есть столько?

Когда вышла прошлая версия DeepSeek V3, то народ запускал инференцию даже с SSD дисков... Скорость конечно была очень медленная, но в принципе - можно...

Я прошлую версию (q4_K_M 400GB) запускал в памяти DDR4-2666 - получалось около 2 токена в секунду.

Сейчас выпустят продвинутые кванты, и я себе поставил 72GB VRAM, то думаю получится нормальной скорости достичь...

Unsloth написали блог про то, как запустить модель с "умными" квантами:

https://docs.unsloth.ai/basics/tutorial-how-to-run-deepseek-v3-0324-locally

Модель от DeepSeek - около 700GB, так что запустить на своём компьютере непросто.

Bartowsky сейчас заливает кванты на эту модель: https://huggingface.co/bartowski/deepseek-ai_DeepSeek-V3-0324-GGUF

Ребята из Unsloth работают над продвинутой квантизацией: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF

Все эти кванты - продолжают пока заливать... Интересно будет сравнить их размеры и качество...

Мощность атомного реактора - около 1000 МегаВатт. Обычно на атомной станции - несколько реакторов.

Получается от одного реактора может одновременно заряжаться около 1000 таких машин по мегаватту. Ну если такая зарядка длиться всего 5-10 минут, то за день таких машин можно много зарядить...

Да даже покупку простого билета из A в Б никто нейросетям не доверяет.

А нам тут заливают, что уже скоро AGI...

Information

Rating
2,751-st
Location
Greenville, South Carolina, США
Registered
Activity