All streams
Search
Write a publication
Pull to refresh
28
10.2
Славик Фурсов @SlavikF

Developer

Send message

Капча - это зло. Иногда, конечно, выхода нет, но у Cloudflare с этим перебор.

Бесплатный домен? Что-то не видел я бесплатного домена у Cloudflare, я плачу. Где найти бесплатный?

Такие "IT-модели" есть:

https://ollama.com/library/qwen2.5-coder

А ещё, разработчики Ollama подложили всем свинью, назвав distilled модели - DeepSeek R1. А автор за ними это повторяет в статье.

deepseek-r1:14b - мало что общего имеет с настоящим DeepSeek R1. Это просто distill от Qwen модели.

Настоящий DeepSeek R1 - это 671b, который может быть в разных вариантах квантизации, но не бывает 14b, 32b, 70b ...

Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.

Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.

Да, DeepSeek R1 "мыслит".

А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.

Для сравнения: Nvidia RTX 3090 - это 284 TOPS

Но на самом деле скорость CPU / NPU / ... - именно для DeepSeek неважна. Скорость работы DeepSeek определяется скоростью работы памяти.

2 процессора - это зря.

Для LLM - 1 процессор работает лучше, чем 2.

Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.

У меня 2 * Xeon Gold 5218.

Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.

Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.

Получил около 2 токенов в секунду:

- response_token/s: 1.9

- prompt_token/s: 3.8 - 5

Работает. Но с такой скоростью оно не надо.

У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.

А ещё память нужна для контекста...

NVIDIA Digits - только 128GB RAM. Для DeepSeek не хватит

Я пробовал пару недель назад. Работает на CPU + RAM. Я использовал q4_K_M - 404GB.

  • response_token/s: 1.9

  • prompt_token/s: 3.8 - 5

2х процессорная система Intel Xeon Gold 5218, Cascade Lake (2.30 GHz Base / 3.90 GHz Turbo).

У каждого CPU - 6 каналов памяти, поэтому я поставил 12 * DDR4-2666 по 64GB. Получилось 768 GB RAM.

В общем, как эксперимент - интересно, но с такой скоростью - не особо юзабельно.

Количество ядер - не важно. Больше 16 ядер - никак не ускоряют, меньше 16 - замедляют. Всё упирается в скорость памяти. У AMD последние модели процессоров поддерживают 12 каналов DDR5-4800 памяти, то вот там наверное будет боле-менее.

Сегодня вышла статья, про то, как можно квантизацию делать хитрым способом, и тогда требования к памяти получаются ещё раза в два меньше и при этом качество сохраняется:

https://unsloth.ai/blog/deepseekr1-dynamic

https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/

Я использую guacamole.

https://guacamole.apache.org/

У RustDesk слишком много всего закрытого или платного.

Насколько я разбираюсь в защите, открытый порт - это конечно нехорошо, но это не самая большая проблема, потому что вероятность того, что камера будет торчать в Интернет всеми портами - небольшая.

Более серьёзная проблема - это если камера сама начнёт подключаться к серверам в Интернете и сливать туда что-нибудь...

Обе эти проблемы легко решаются, если поместить их в VLAN, изолированную от Интернета.

может пройти банкротство

В Америке есть только две категории долгов, которые не списываются при банкротстве:

  • налоги

  • кредиты за образование

научились нарезать домашние карты

Когда я смотрел детали, то там умельцы это делали для серий 1xxx и 20xx, а вот для 30xx и 40xx вроде бы никто так и не сумел запустить vGPU. Или уже сумели?

Я использовал вот этот guide: https://gitlab.com/polloloco/vgpu-proxmox

Автор не в теме, но пишет много букф...

только RTX 4090 имеет больше — 24 Гб

RTX 3090 тоже имеет 24 ГБ (большая буква "Б" означает "байт", маленькая "б" - "бит")

Чем серверные GPU-ускорители отличаются от потребительских видеокарт

В статье с таким названием умудрились так и не написать про одно из основных отличий: серверные карты от NVIDIA поддерживают технологию VGPU, а потребительские - нет. VGPU позволяет использовать одну карточку нескольким виртуальным машинам или программам одновременно. Несколько программ могут работать и на потребительских моделях (но не виртуалок), но в серверных моделях для каждой программы можно назначить "профиль", в котором прописать кому сколько ресурсов достанется.

Когда будут кванты, то очень интересно было бы посмотреть, как будет работать суммаризация (конспекты) с длинной контекста 32k или 64k.

А этот дистрибутив умеет иконки на рабочем столе (на десктопе)?

А можете ещё добавить примеров? Не нужно код, просто сценарии где могут быть полезны Pipelines?

Уже вышла версия 0.4.6

https://github.com/open-webui/open-webui/releases

Реквестирую статью про использование RAG на базе Open Web UI: или какой-нибудь туториал, или пример использования...

Программы, практически никогда не состоят из одного файла - обычно это десятки или сотни файлов. Исключение - это может быть shell-скрипты и что-то подобное.

И даже если файлы небольшие - как вы их зальёте в GPT?

Ну есть разные сервисы, которые позволяют загружать в контекст множество файлов, но структуры проекты ещё никто не научился понимать.

Information

Rating
650-th
Location
Seattle, Washington, США
Registered
Activity