Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.
Я пробовал пару недель назад. Работает на CPU + RAM. Я использовал q4_K_M - 404GB.
response_token/s: 1.9
prompt_token/s: 3.8 - 5
2х процессорная система Intel Xeon Gold 5218, Cascade Lake (2.30 GHz Base / 3.90 GHz Turbo).
У каждого CPU - 6 каналов памяти, поэтому я поставил 12 * DDR4-2666 по 64GB. Получилось 768 GB RAM.
В общем, как эксперимент - интересно, но с такой скоростью - не особо юзабельно.
Количество ядер - не важно. Больше 16 ядер - никак не ускоряют, меньше 16 - замедляют. Всё упирается в скорость памяти. У AMD последние модели процессоров поддерживают 12 каналов DDR5-4800 памяти, то вот там наверное будет боле-менее.
Сегодня вышла статья, про то, как можно квантизацию делать хитрым способом, и тогда требования к памяти получаются ещё раза в два меньше и при этом качество сохраняется:
Насколько я разбираюсь в защите, открытый порт - это конечно нехорошо, но это не самая большая проблема, потому что вероятность того, что камера будет торчать в Интернет всеми портами - небольшая.
Более серьёзная проблема - это если камера сама начнёт подключаться к серверам в Интернете и сливать туда что-нибудь...
Обе эти проблемы легко решаются, если поместить их в VLAN, изолированную от Интернета.
Когда я смотрел детали, то там умельцы это делали для серий 1xxx и 20xx, а вот для 30xx и 40xx вроде бы никто так и не сумел запустить vGPU. Или уже сумели?
RTX 3090 тоже имеет 24 ГБ (большая буква "Б" означает "байт", маленькая "б" - "бит")
Чем серверные GPU-ускорители отличаются от потребительских видеокарт
В статье с таким названием умудрились так и не написать про одно из основных отличий: серверные карты от NVIDIA поддерживают технологию VGPU, а потребительские - нет. VGPU позволяет использовать одну карточку нескольким виртуальным машинам или программам одновременно. Несколько программ могут работать и на потребительских моделях (но не виртуалок), но в серверных моделях для каждой программы можно назначить "профиль", в котором прописать кому сколько ресурсов достанется.
Программы, практически никогда не состоят из одного файла - обычно это десятки или сотни файлов. Исключение - это может быть shell-скрипты и что-то подобное.
И даже если файлы небольшие - как вы их зальёте в GPT?
Ну есть разные сервисы, которые позволяют загружать в контекст множество файлов, но структуры проекты ещё никто не научился понимать.
Капча - это зло. Иногда, конечно, выхода нет, но у Cloudflare с этим перебор.
Бесплатный домен? Что-то не видел я бесплатного домена у Cloudflare, я плачу. Где найти бесплатный?
Такие "IT-модели" есть:
https://ollama.com/library/qwen2.5-coder
А ещё, разработчики Ollama подложили всем свинью, назвав distilled модели - DeepSeek R1. А автор за ними это повторяет в статье.
deepseek-r1:14b - мало что общего имеет с настоящим DeepSeek R1. Это просто distill от Qwen модели.
Настоящий DeepSeek R1 - это 671b, который может быть в разных вариантах квантизации, но не бывает 14b, 32b, 70b ...
Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.
Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.
Да, DeepSeek R1 "мыслит".
А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.
Для сравнения: Nvidia RTX 3090 - это 284 TOPS
Но на самом деле скорость CPU / NPU / ... - именно для DeepSeek неважна. Скорость работы DeepSeek определяется скоростью работы памяти.
2 процессора - это зря.
Для LLM - 1 процессор работает лучше, чем 2.
Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.
У меня 2 * Xeon Gold 5218.
Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.
Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.
Получил около 2 токенов в секунду:
- response_token/s: 1.9
- prompt_token/s: 3.8 - 5
Работает. Но с такой скоростью оно не надо.
У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.
А ещё память нужна для контекста...
NVIDIA Digits - только 128GB RAM. Для DeepSeek не хватит
Я пробовал пару недель назад. Работает на CPU + RAM. Я использовал q4_K_M - 404GB.
response_token/s: 1.9
prompt_token/s: 3.8 - 5
2х процессорная система Intel Xeon Gold 5218, Cascade Lake (2.30 GHz Base / 3.90 GHz Turbo).
У каждого CPU - 6 каналов памяти, поэтому я поставил 12 * DDR4-2666 по 64GB. Получилось 768 GB RAM.
В общем, как эксперимент - интересно, но с такой скоростью - не особо юзабельно.
Количество ядер - не важно. Больше 16 ядер - никак не ускоряют, меньше 16 - замедляют. Всё упирается в скорость памяти. У AMD последние модели процессоров поддерживают 12 каналов DDR5-4800 памяти, то вот там наверное будет боле-менее.
Сегодня вышла статья, про то, как можно квантизацию делать хитрым способом, и тогда требования к памяти получаются ещё раза в два меньше и при этом качество сохраняется:
https://unsloth.ai/blog/deepseekr1-dynamic
https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/
Я использую guacamole.
https://guacamole.apache.org/
У RustDesk слишком много всего закрытого или платного.
Насколько я разбираюсь в защите, открытый порт - это конечно нехорошо, но это не самая большая проблема, потому что вероятность того, что камера будет торчать в Интернет всеми портами - небольшая.
Более серьёзная проблема - это если камера сама начнёт подключаться к серверам в Интернете и сливать туда что-нибудь...
Обе эти проблемы легко решаются, если поместить их в VLAN, изолированную от Интернета.
В Америке есть только две категории долгов, которые не списываются при банкротстве:
налоги
кредиты за образование
Когда я смотрел детали, то там умельцы это делали для серий 1xxx и 20xx, а вот для 30xx и 40xx вроде бы никто так и не сумел запустить vGPU. Или уже сумели?
Я использовал вот этот guide: https://gitlab.com/polloloco/vgpu-proxmox
Автор не в теме, но пишет много букф...
RTX 3090 тоже имеет 24 ГБ (большая буква "Б" означает "байт", маленькая "б" - "бит")
В статье с таким названием умудрились так и не написать про одно из основных отличий: серверные карты от NVIDIA поддерживают технологию VGPU, а потребительские - нет. VGPU позволяет использовать одну карточку нескольким виртуальным машинам или программам одновременно. Несколько программ могут работать и на потребительских моделях (но не виртуалок), но в серверных моделях для каждой программы можно назначить "профиль", в котором прописать кому сколько ресурсов достанется.
Когда будут кванты, то очень интересно было бы посмотреть, как будет работать суммаризация (конспекты) с длинной контекста 32k или 64k.
А этот дистрибутив умеет иконки на рабочем столе (на десктопе)?
А можете ещё добавить примеров? Не нужно код, просто сценарии где могут быть полезны Pipelines?
Уже вышла версия 0.4.6
https://github.com/open-webui/open-webui/releases
Реквестирую статью про использование RAG на базе Open Web UI: или какой-нибудь туториал, или пример использования...
Программы, практически никогда не состоят из одного файла - обычно это десятки или сотни файлов. Исключение - это может быть shell-скрипты и что-то подобное.
И даже если файлы небольшие - как вы их зальёте в GPT?
Ну есть разные сервисы, которые позволяют загружать в контекст множество файлов, но структуры проекты ещё никто не научился понимать.