на стороне нашего прокси ... мы выставили следующие лимиты:
максимум 10 запросов в секунду с одного IP
А что - так можно? У меня опыта нету, но я думал, что если трафик проксируется через Cloudflare, то и идти он весь будет с их нескольких IP. Или я неправ?
Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.
Я пробовал пару недель назад. Работает на CPU + RAM. Я использовал q4_K_M - 404GB.
response_token/s: 1.9
prompt_token/s: 3.8 - 5
2х процессорная система Intel Xeon Gold 5218, Cascade Lake (2.30 GHz Base / 3.90 GHz Turbo).
У каждого CPU - 6 каналов памяти, поэтому я поставил 12 * DDR4-2666 по 64GB. Получилось 768 GB RAM.
В общем, как эксперимент - интересно, но с такой скоростью - не особо юзабельно.
Количество ядер - не важно. Больше 16 ядер - никак не ускоряют, меньше 16 - замедляют. Всё упирается в скорость памяти. У AMD последние модели процессоров поддерживают 12 каналов DDR5-4800 памяти, то вот там наверное будет боле-менее.
Сегодня вышла статья, про то, как можно квантизацию делать хитрым способом, и тогда требования к памяти получаются ещё раза в два меньше и при этом качество сохраняется:
Насколько я разбираюсь в защите, открытый порт - это конечно нехорошо, но это не самая большая проблема, потому что вероятность того, что камера будет торчать в Интернет всеми портами - небольшая.
Более серьёзная проблема - это если камера сама начнёт подключаться к серверам в Интернете и сливать туда что-нибудь...
Обе эти проблемы легко решаются, если поместить их в VLAN, изолированную от Интернета.
Когда я смотрел детали, то там умельцы это делали для серий 1xxx и 20xx, а вот для 30xx и 40xx вроде бы никто так и не сумел запустить vGPU. Или уже сумели?
RTX 3090 тоже имеет 24 ГБ (большая буква "Б" означает "байт", маленькая "б" - "бит")
Чем серверные GPU-ускорители отличаются от потребительских видеокарт
В статье с таким названием умудрились так и не написать про одно из основных отличий: серверные карты от NVIDIA поддерживают технологию VGPU, а потребительские - нет. VGPU позволяет использовать одну карточку нескольким виртуальным машинам или программам одновременно. Несколько программ могут работать и на потребительских моделях (но не виртуалок), но в серверных моделях для каждой программы можно назначить "профиль", в котором прописать кому сколько ресурсов достанется.
DeepSeek остаётся тем самым выбором, который оправдывает себя, когдаошибаться нельзя.Когда ошибаться нельзя - никакая ИИ не подходит. Не доросли ИИ ещё до этого.
Я поставил себе Gitlab, и использую его, как container registry.
Он правда работает не совсем, как обычный registry, но удобно, что есть своя CI.
на стороне нашего прокси ... мы выставили следующие лимиты:максимум 10 запросов в секунду с одного IPА что - так можно? У меня опыта нету, но я думал, что если трафик проксируется через Cloudflare, то и идти он весь будет с их нескольких IP. Или я неправ?
Капча - это зло. Иногда, конечно, выхода нет, но у Cloudflare с этим перебор.
Бесплатный домен? Что-то не видел я бесплатного домена у Cloudflare, я плачу. Где найти бесплатный?
Такие "IT-модели" есть:
https://ollama.com/library/qwen2.5-coder
А ещё, разработчики Ollama подложили всем свинью, назвав distilled модели - DeepSeek R1. А автор за ними это повторяет в статье.
deepseek-r1:14b - мало что общего имеет с настоящим DeepSeek R1. Это просто distill от Qwen модели.
Настоящий DeepSeek R1 - это 671b, который может быть в разных вариантах квантизации, но не бывает 14b, 32b, 70b ...
Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.
Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.
Да, DeepSeek R1 "мыслит".
А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.
Для сравнения: Nvidia RTX 3090 - это 284 TOPS
Но на самом деле скорость CPU / NPU / ... - именно для DeepSeek неважна. Скорость работы DeepSeek определяется скоростью работы памяти.
2 процессора - это зря.
Для LLM - 1 процессор работает лучше, чем 2.
Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.
У меня 2 * Xeon Gold 5218.
Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.
Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.
Получил около 2 токенов в секунду:
- response_token/s: 1.9
- prompt_token/s: 3.8 - 5
Работает. Но с такой скоростью оно не надо.
У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.
А ещё память нужна для контекста...
NVIDIA Digits - только 128GB RAM. Для DeepSeek не хватит
Я пробовал пару недель назад. Работает на CPU + RAM. Я использовал q4_K_M - 404GB.
response_token/s: 1.9
prompt_token/s: 3.8 - 5
2х процессорная система Intel Xeon Gold 5218, Cascade Lake (2.30 GHz Base / 3.90 GHz Turbo).
У каждого CPU - 6 каналов памяти, поэтому я поставил 12 * DDR4-2666 по 64GB. Получилось 768 GB RAM.
В общем, как эксперимент - интересно, но с такой скоростью - не особо юзабельно.
Количество ядер - не важно. Больше 16 ядер - никак не ускоряют, меньше 16 - замедляют. Всё упирается в скорость памяти. У AMD последние модели процессоров поддерживают 12 каналов DDR5-4800 памяти, то вот там наверное будет боле-менее.
Сегодня вышла статья, про то, как можно квантизацию делать хитрым способом, и тогда требования к памяти получаются ещё раза в два меньше и при этом качество сохраняется:
https://unsloth.ai/blog/deepseekr1-dynamic
https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/
Я использую guacamole.
https://guacamole.apache.org/
У RustDesk слишком много всего закрытого или платного.
Насколько я разбираюсь в защите, открытый порт - это конечно нехорошо, но это не самая большая проблема, потому что вероятность того, что камера будет торчать в Интернет всеми портами - небольшая.
Более серьёзная проблема - это если камера сама начнёт подключаться к серверам в Интернете и сливать туда что-нибудь...
Обе эти проблемы легко решаются, если поместить их в VLAN, изолированную от Интернета.
В Америке есть только две категории долгов, которые не списываются при банкротстве:
налоги
кредиты за образование
Когда я смотрел детали, то там умельцы это делали для серий 1xxx и 20xx, а вот для 30xx и 40xx вроде бы никто так и не сумел запустить vGPU. Или уже сумели?
Я использовал вот этот guide: https://gitlab.com/polloloco/vgpu-proxmox
Автор не в теме, но пишет много букф...
RTX 3090 тоже имеет 24 ГБ (большая буква "Б" означает "байт", маленькая "б" - "бит")
В статье с таким названием умудрились так и не написать про одно из основных отличий: серверные карты от NVIDIA поддерживают технологию VGPU, а потребительские - нет. VGPU позволяет использовать одну карточку нескольким виртуальным машинам или программам одновременно. Несколько программ могут работать и на потребительских моделях (но не виртуалок), но в серверных моделях для каждой программы можно назначить "профиль", в котором прописать кому сколько ресурсов достанется.
Когда будут кванты, то очень интересно было бы посмотреть, как будет работать суммаризация (конспекты) с длинной контекста 32k или 64k.
А этот дистрибутив умеет иконки на рабочем столе (на десктопе)?